Progreammine Hive 


[ 蒜 ] EGR Capriolo 
De WampHer 

Jason Ruiberaelen 著 
曹 坤 译 


O'REILLY” ZS 人 民 邮 电 出 版 社 


SS POsTS & TELECOM PRESS 


目 条 


3 二 
版 权 声 明 
内 容 提 要 
O'Reilly Media，Inc. 介 绍 


作者 简介 
作者 序 


第 1 童 基础 知识 

1.1 Hadoop 和 MapReduce 综 二 
MapReduce 

1.2 Hadoop 生 态 系统 中 的 Hive 
1.2.1 Pig 

1.2.2 HBase 

1.2.3 Cascading、Crunch 及 其 他 


1.3 Java 和 Hive: 词 频 统 计算 ; 


2.1 安装 预先 配 的 虚 扫 
232 证 细 步 骤 


2.2.1 装 Java 


2.2.4 测 试 Hadoop 


2.2.5 安装 Hive 

2.3 Hive 内 部 是 什 
2.4 局 动 Hive 

2.5 配置 Hadoop 环 境 
2.5.1 本 地 模式 配置 


2.5.2 分 布 式 模式 H 伪 分 式 模式 本 
2.5.3 JDBC 连 接 元 关 
2.6 Hive 命 令 


命令 选项 


6 54 aa IT 
6.45RIGHTOUTER JON 


3 ee 


tatic Column Mapping) 


版 权 信息 


书 名 : Hive 编 程 指南 

ISBN: 978-7-115-33383-4 

本 书 由 人 民 邮 电 出 版 社 发 行 数字 版 。 版 权 所 有 ， 侵 权 必 究 。 

您 购买 的 人 民 邮 电 出 版 社 电子 书 仅 供 您 个 人 使 用 ， 未 经 授权 ， 不 
得 以 任何 方式 复制 和 传播 本 书 内 容 。 
人 民 知 和 觉悟 ， 与 我 们 共同 保护 知识 


如 打 购 买 者 有 侵权 行为 ， 我 们 可 能 对 该 用 户 实 施 包括 但 不 限于 关 
闭 该 帐号 等 维权 措施 ， 并 可 能 追究 法 律 贡 任 。 


车 [ 美 ] Edward Capriolo “Dean Wampler Jason 
Rutherglen 
译 曹 坤 


责任 编辑 汪 振 
。 人 民 邮 电 出 版 社 出 版 发 行 ”北京 市 丰台 区 成 寿 寺 路 11 号 
邮编 100164 ”电子 邮件 ”315@ptpress.com.cn 
网 址 ”http://www.ptpress.com.cn 
读者 服务 热线 : (010)81055410 


反 盗 版 热线 : (010)81055315 


版 权 声 明 


Copyright © 2013 by O’Reilly Media. Inc. 


Simplified Chinese Edition, jointly published by O’Reilly Media, Inc. 
and Posts &; Telecom Press, 2013. Authorized translation of the English 
edition, 2013 O’Reilly Media, Inc., the owner of all rights to publish and 
sell same. 


All rights reserved including the rights of reproduction in whole or in 
part in any form. 


本 书 中 文 简体 字 版 由 OReilly Media, Inc. 授 权 人 民 邮 电 出 版 社 出 
eA i 


版 权 所 有 ， 侵 权 必 究 。 


内 容 提要 


本 书 是 一 本 Apache Hive 的 编程 指南 ， 旨 在 介绍 如 何 使 用 Hive 的 
SQL 方法 一 一 HiveQL 来 汇总 、 碍 询 和 分 析 存 储 在 Hadoop 分 布 式 文 件 系 
统 上 的 大 数据 集合 。 全 书 通过 大 量 的 实例 ， 首 先 介 绍 如 何在 用 户 环境 
下 安装 和 配置 Hive， 并 对 Hadoop 和 MapReduce 进 行 详尽 前 述 ， 最 终 演 
示 Hive 如 何在 Hadoop 生 态 系统 进行 工作 。 


本 书 适合 对 大 数据 感 兴趣 的 爱好 者 以 及 正在 使 用 Hadoop 系 统 的 数 
据 库 管理 员 阅 读 使 用 。 


O'Reilly Media，Inc. 介 绍 


O'Reilly Media 通 过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研 究 和 会 议 等 方 
式 传播 创新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 
和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 
趋势 一 一 通过 放大 那些 “细微 的 信号 ?来 刺激 社会 对 新 科技 的 应 用 。 作 
为 技术 社区 中 活跃 的 参与 者 ，O'Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 
造 和 发 扬 光 大 。 


O'Reilly 为 软件 开发 人 员 计 来 早 命 性 的 “动物 书 ”;， 创建 第 一 个 商业 
网 站 (GNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 
运动 以 此 命名 ; 创立 了 《Make》 和 杂志 ， 从 而 成 为 DIY 音 命 的 主要 移 
锋 ; 公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O’Reilly 的 会 
议和 峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 拉 绘 出 开 
创新 产业 的 革命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O’”Reilly 现 在 
还 将 先锋 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 
版 、 在 线 服务 或 者 面授 课程 ， 每 一 项 O’Reilly 的 产品 都 反映 了 公司 不 可 


动摇 的 理念 一 一 信息 是 油 发 创新 的 力量 。 
业界 评论 


“O’Reilly Radar 博 客 有 口 丝 人 肆 。” 


Wired 


“O’Reilly 和 凭借 一 系列 〈 真 希望 当初 我 也 想到 了 ) 非凡 想法 建立 了 
数 百 万 美元 的 业务 。” 


Business 2.0 

“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
一 一 CRN 

“一 本 O’Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 


Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 
并 且 切 实地 按照 Yogi Berra 的 建议 去 做 了 : “如 采 你 在 路 上 过 到 钨 路 
口 ， 走 小 路 〈 盆 路 ) 。?* 回 顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 且 
有 几 次 都 是 一 内 即 授 的 机 会 ， 尽 管 大 路 也 不 错 。” 


Linux Journal 


作者 简介 


Edward Capriolo 目 前 是 Media6degrees 公 司 的 系统 管理 员 ， 在 这 里 
他 为 互联 网 广告 企业 提供 设计 和 维护 分 布 式 数据 存储 系统 的 服务 。 


Edward 是 Apache 软 件 基金 会 的 成 员 ， 同 时 也 是 Hadoop/Hive 项 目 
的 贡献 者 。Edward 具 有 软件 开发 经 验 ， 同 时 也 具有 Linux 和 网 络 管理 员 
的 经 历 ， 而 且 对 于 开源 软件 世界 充满 了 热情 。 


Dean Wampler 是 ThinkBigAnalytics 公 司 的 首席 顾问 ， 其 擅长 “大 数 
据 * 文 件 ， 以 及 像 Hadoop 这 样 的 工具 人 研究， 还 有 机 履 学 习 相 关 的 内 
容 。 除 了 擅长 大 数据 ， 他 还 擅长 Scala、JVM 生 态 系统 、JavaScript、 
Ruby、 画 数 式 以 及 面 问 对 象 编程 ， 同 时 还 擅长 敏捷 方法 。Dean 经 党 性 
地 在 工业 和 学 术 会 议 上 就 这 些 主题 进行 演讲 。 他 还 具有 来 目 华 右 顿 大 
学 的 物理 学 博士 学 位 。 


Jason Rutherglen 是 Think Big Analytics 公 司 的 一 名 软件 架构 师 ， 其 
擅长 大 数据 、Hadoop、 搜 索 和 安全 领域 。 


作者 序 


Edward Capriolo 


当 我 第 一 次 参与 到 Hadoop 里 时 ， 我 看 到 了 分 布 式 文 件 系 统 和 
MapReduce 计 算 框架 可 以 以 一 种 伟大 的 方式 来 解决 计算 密集 型 的 问 
题 。 然 而 ， 使 用 MapReduce 编 程 模 型 进行 编程 曾经 对 于 我 来 说 是 件 非 
党 麻烦 的 事情 。Hive 提 供 了 一 个 类 SQL 的 方式 可 以 让 我 快速 而 又 简单 
地 利用 到 MapReduce 计 算 的 优势 。 这 种 方法 也 使 得 概念 验证 应 用 程序 
原型 设计 变 得 容易 ， 同 时 在 内 部 可 以 很 好 地 使 用 Hadoop 作 为 解决 方 
案 。 尽 管 我 现在 非常 熟悉 Hadoop 内 核 ，Hive 仍 然 是 我 利用 Hadoop 进 行 
工作 的 主要 方法 。 


能 够 参与 编写 一 本 关于 Hive 的 书 ， 对 我 来 说 是 一 件 非常 采 粮 的 事 
情 ; 同时 能 够 作为 一 名 Hive 代 码 贡献 者 和 Apache 软 件 基金 会 的 成 员 也 
年 我 最 有 价值 的 宋 誉 。 


Dean Wampler 


作为 Think Big Analytics 公 司 的 一 名 “大 数据 "顾问 ， 我 经 芝 和 一 群 
具有 丰富 经 难 的 SQL“ 数 据 人 "一 起 工作 。 对 他 们 来 说 ， 使 用 Hive 有 是 必 
要 且 充 分 的 ， 这 样 才 能 使 用 Hadoop 作 为 可 行 的 工具 ， 并 利用 他 们 的 
SQL 知识 来 使 用 数据 分 析 ， 开 创新 的 机 遇 。 


Hive 缺 乏 良 好 的 文档 。 我 向 O’Reilly 出 版 社 的 编辑 Mike Loukides 建 
议 ， 社 区 确实 需要 一 本 Hive 相 关 的 书籍 。 于是， 本 书 应 运 而 生 .….….…. 


Jason Rutherglen 


我 是 Think Big Analytics 公 司 的 一 名 软件 架构 师 。 我 的 职业 生涯 涉 
及 一 系列 的 技术 ， 包 括 搜索 、Hadoop、 移动 、 密 码 学 和 自然 语言 处 
理 。Hive 是 使 用 开源 技术 ， 基 于 海量 数据 构建 数据 仓库 的 最 终 方 式 。 
我 在 很 多 不 同 的 项 目 中 使 用 了 Hive。 
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产生 的 结果 数据 。 
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SimpleReach 公 司 的 案例 研究 。Chris A. Mattmann、Paul Zimdars、 
Cameron Goodale 、 Andrew F. Hart、Jinwon Kim 、 Duane Waliser 和 Peter 
Lean 共 同 贡 献 了 美国 宇航 局 喷气 推进 实验 室 (NASA JPL) 的 案例 研 
究 o 
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前 言 


本 书 是 一 本 Hive 的 编程 指南 。Hive 是 Hadoop 生 态 系统 中 必 不 可 少 
的 一 个 工具 ， 它 提供 了 一 种 SQL (结构 化 查询 语言 ) 方言， 可 以 查询 
存储 在 Hadoop 分 布 式 文件 系统 (HDFS) 中 的 数据 或 其 他 和 Hadoop 集 
成 的 文件 系统 ， 如 MapR-FS、Amazon 的 S3 和 像 HBase (Hadoop 数 据 
库 ) 和 Cassandra 这 样 的 数据 库 中 的 数据 。 


大 多 数 数据 仓库 应 用 程序 都 是 使 用 关系 数据 库 进 行 实现 的 ， 并 使 
用 SQL 作为 查询 语言 。Hive 降 低 了 将 这 些 应 用 程序 转移 到 Hadoop 系 统 
上 的 难度 。 凡 是 会 使 用 SQL 语言 的 开发 人 员 都 可 以 很 轻松 地 学 习 并 使 
用 Hive。 如 果 没 有 Hive， 那 么 这 些 用 户 束 必须 学 习 新 的 语言 和 工具 ， 
然后 才能 应 用 到 生产 环境 中 。 另 外 ， 相 比 其 他 工具 ，Hive 更 便于 开发 
人 员 将 基于 SQL 的 应 用 程序 转移 到 Hadoop 中 。 如 果 没 有 Hive， 那 么 开 
a 如 何 将 他 们 的 SQL 应 用 程序 移植 到 
Hadoop 上 。 


不 过 ，Hive 和 其 他 基于 SQL 的 环境 还 是 有 一 些 差异 的 。 如 今 ， 可 
供 Hive 用 户 和 Hadoop 开 发 者 使 用 的 文档 并 不 多 ， 所 以 我 们 决定 撰写 这 
本 书 来 填补 这 个 缺口 。 我 们 将 对 Hive 进 行 全 面 详实 的 介绍 ， 主 要 适用 
于 SQL 专家 ， 如 数据 库 设 计 人 员 和 业务 分 析 师 。 我 们 也 谈 到 了 深入 的 
技术 细节 ， 可 以 帮助 Hadoop 开 发 人 员 对 Hive 进 行 调 优 和 定制 。 

用 户 可 以 在 本 书 的 目录 页 面 了 解 到 更 多 信息 : 
http://oreil.ly/Programming_ Hive ° 
本 书 中 所 使 用 的 约定 

本 书 中 使 用 到 了 如 下 几 种 印刷 字体 。 

冬 体 字 


表明 是 新 的 术语 、URL、 电 子 邮件 地 址 、 文 件 名 或 者 文件 扩展 


等 宽 字 体 


用 于 程序 列表 ， 同 时 段落 中 使 用 到 的 了 程序 片段 ， 例 如 变量 或 者 
函数 名 称 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 和 关键 字 。 


等 宽 粗 体 
表示 是 命令 或 者 其 他 需要 用 户 进行 输入 的 文本 。 
等 宽 和 斜体 


表示 这 个 文本 需要 用 户 提供 对 应 的 值 或 者 需要 通过 上 下 文才 能 获 
取 到 的 值 。 


-A 


a 
te 全 是 a 
Ey 提示 


这 个 图 标 表明 是 一 个 小 技巧 、 建 议 或 者 一 般 性 的 注释 。 


| 


ES gs 
这 个 图 标 表明 是 个 警告 或 者 警示 。 
使 用 的 代码 示例 


本 书 的 目的 是 帮助 用 户 完成 他 们 的 任务 。 通 音 情 况 下 ， 用 户 可 以 
在 他 们 的 程序 和 文档 中 使 用 本 书 中 的 代码 。 如 此 不 需要 联系 我 们 以 获 
取 许 可 ， 除 非 明 显 地 复制 了 代码 的 大 部 分 内 容 。 例 如 ， 写 程序 用 到 了 
本 书 中 几 个 代码 片段 是 不 需要 获得 许可 的 ， 但 是 如 采 销 售 或 者 传播 包 
舍 了 O"'Reily 系 列 书 籍 中 的 例子 的 CD 光盘 ， 那 么 殉 一 定 要 获得 我 们 的 
许可 才 行 。 在 回答 问题 时 引用 到 本 书 或 以 本 书 中 的 例子 为 引证 时 不 需 
要 获得 许可 ， 将 一 定数 量 的 样 例 代 码 复制 到 目 己 的 产品 文档 中 则 一 定 
需要 获得 我 们 的 许可 才 可 以 。 


虽然 并 非 是 必需 的 ， 但 如 果 可 以 注 明 出 处 ， 我 们 将 十 分 感激 。 出 
处 一 般 包 括 标题 ， 作 者 ， 出 版 商 和 ISBN。 例 如 : “Programming Hive 
by Edward Capriolo, Dean Wampler, and Jason Rutherglen (O’Reilly). 
Copyright 2012 Edward Capriolo, Aspect Research Associates, and Jason 
Rutherglen, 978-1-449-31933-5.” 


如 果 用 户 感 觉 自 己 没有 合理 地 或 者 在 如 上 所 述 的 许可 范围 内 使 用 
本 书 中 代码 样 例 的 话 ， 请 尽管 通过 permissions@oreilly.com 联 系 我 们 。 


Safari@ 在 线 图 书 


Safarl 


Safari 在 线 图 书 是 一 个 按 需 服务 的 数字 图 书馆 。 使 用 它 ， 用 户 可 以 
1 500 本 技术 和 创意 参考 书 以 及 视频 教程 ， 快 速 获得 想 知 
J 旺 HJ 丛 未 ，" 


通过 订阅 ， 用 户 可 以 从 我 们 的 在 线 图 书馆 中 阅读 每 一 篇 文章 或 观 
看 每 一 部 视频 。 通 过 用 户 的 手机 和 其 他 移动 设备 看 书 。 在 书 还 没有 印 
刷 前 束 可 以 事先 看 到 书目 ， 还 可 以 看 到 正在 进行 中 的 草稿 ， 并 可 以 将 
意见 反馈 给 作者 。 复 制 类 贴 代 码 样 例 ， 组 织 用 户 的 收藏 夹 ， 下 载 一 些 
章 和 ， 对 关键 章 世 标记 标签 ， 创 建 笔记 ， 打 印 书籍 内 容 ， 并 通过 其 他 
众多 的 省 时 功能 而 受益 。 

O’Reilly 公 司 已 经 将 本 书 上 传 到 Safari 图 书 在 线 服务 。 想 获得 对 这 
本 书 的 完整 数据 版 访问 权限 以 及 其 他 的 来 源 于 O'Reily 和 其 他 出 版 商 的 
nn 请 通过 网 址 http://my.safaribooksonline.com 人 免费 注 
册 账 户 。 


如 何 联系 到 我 们 


请 将 对 于 本 书 的 评论 和 问题 通过 如 下 地 址 发 送 给 出 版 商 : 


O’Reilly Media, Inc. 

1005 Gravenstein Highway North 

Sebastopol, CA 95472 

800-998-9938 (in the United States or Canada) 
707-829-0515 (international or local) 
707-829-0104 (fax) 


在 本 书 的 官方 页 面 中 ， 我 们 列举 了 勘误 表 、 例 子 和 其 他 附加 信 
思 ， 用 户 可 以 通过 以 下 链接 访问 : 


http://oreil.ly/Programming_Hive 


es 0 将 用 户 对 本 书 的 评论 或 技术 方面 的 问题 发 
关 给 我 们 ， 


bookquestions(@oreilly.com 


想 获 得 更 多 关于 我 们 的 系列 书籍 、 会 议 、 资 源 中 心 和 O’Reilly 网 络 
公司 ， 请 通过 如 下 网 站 查看 : 


http:/www.oreilly.com 
我 们 的 Fackbook 地 址 是 : http://facebook.com/oreilly 
我 们 的 Twitter 地 址 是 : http://twitter.com/oreillymedia 


我 们 的 YouTube 地 址 是 : http://www.youtube.com/oreillymedia 


第 1 章 ”基础 知识 


从 早期 的 互联 网 主流 大 爆发 开始 ， 主 要 的 搜索 引擎 公司 和 电子 商 

务 公司 就 一 直 在 和 不 断 增 长 的 数据 进行 较量 。 最 这， 社交 网 站 也 过 到 

了 同样 的 问题 。 如 今 ， 许 多 组 织 已 经 意识 到 他 们 所 收集 的 数据 是 让 他 

中 J ， 提 高 业务 在 市 场 上 的 表现 以 及 提高 基础 架构 效率 
J 宇 货 资源 


Hadoop 生 态 系 统 束 是 为 处 理 如 此 大 数据 集 而 产生 的 一 个 合乎 成 本 
效益 的 解决 方案 。Hadoop 实 现 了 一 个 特别 的 计算 模型 ， 也 殉 是 
MapReduce， 其 可 以 将 计算 任务 分 割 成 多 个 处 理 单 元 然后 分 散 到 一 群 家 
用 的 或 服务 器 级 别 的 硬件 机 右上， 从 而 降低 成 本 并 提供 水 平 可 伸缩 
性 。 这 个 计算 模型 的 下 面 是 一 个 被 称 为 Hadoop 分 市 式 义 件 系 统 

(HDFS) 的 分 布 式 文件 系统 。 这 个 文件 系统 是 “可 插 拔 的 >， 而 且 现在 
已 经 出 现 了 几 个 商用 的 和 开源 的 替代 方案 。 


不 过 ， 仍 然 存 在 一 个 挑战 ， 那 束 是 用 户 如 何 从 一 个 现 有 的 数据 基 
础 架构 转移 到 Hadoop 上 ， 而 这 个 基础 染 构 钙 基 于 传统 天 系 型 数据 库 和 
绕 移 化 查询 语 负 (SQL) 的 。 对 于 大 量 的 SQL 用 户 (包括 专业 数据 库 设 
计 师 和 管理 员 ， 也 包括 那些 使 用 SQL 从 数据 仓库 中 抽取 信息 的 惜 时 用 
户 ) 来 说 ， 这 个 问题 又 将 如 何 解 决 呢 ? 


这 就 是 Hive 出 现 的 原因 。Hive 提 供 了 一 个 被 称 为 Hive 昔 询 效 言 ( 简 
称 HiveQL 或 HQL) 的 SQL 方言 ， 来 查询 存储 在 Hadoop 集 群 中 的 数据 。 


SQL 知识 分 布 广泛 的 一 个 原因 是 : 它 是 一 个 可 以 有 效 地 、 合 理 地 
有 旦 直观 地 组 织 和 使 用 数据 的 模型 。 即 使 对 于 经 验 丰 定 的 Java 开 发 工程 师 
来 说 ， 将 这 些 常 见 的 数据 运算 对 应 到 改 层 的 MapReduce Java API 也 是 令 
人 点 缩 的 。Hive 可 以 帮助 用 户 来 做 这 些 苗 活 ， 这 样 用 户 就 可 以 集中 精 
力 关 注 于 查询 本 身 了 。Hive 可 以 将 大 多 数 的 查询 转换 为 MapReduce 任 务 
(job) ， 进 而 在 介绍 一 个 令 人 熟悉 的 SQL 抽象 的 同时 ， 拓 宽 Hadoop 的 
可 扩展 性 。 如 果 用 户 对 此 存在 疑惑 ， 请 参考 稍 后 部 分 的 第 1.3m“Java 和 
Hive: 词 频 统计 算法 ”中 的 相关 介绍 。 


Hive 最 适合 于 数据 仓库 应 用 程序 ， 使 用 该 应 用 程序 进行 相关 的 静 
态 数据 分 析 ， 不 需要 快速 啊 应 给 出 结果 ， 而 且 数 据 本 身 不 会 频繁 变 


人 


Hive 不 是 一 个 完整 的 数据 库 。Hadoop 以 及 HDFS 的 设计 本 喘 约 束 和 

局 限 性 地 限制 了 Hive 所 能 胜任 的 工作 。 其 中 最 大 的 限制 惑 是 Hive 不 文 
持 记 录 级 别 的 更 新 、 插 入 或 者 删除 操作 。 但 古 用 户 可 以 通过 查询 生成 
新 表 或 者 将 查询 结果 导入 到 文件 中 。 同 时 ， 因 为 Hadoop 是 一 个 面向 批 
处 理 的 系统 ， 而 MapReduce 任 务 (job) 的 启动 过 程 需要 消耗 较 长 的 时 
间 ， 所 以 Hive 碍 询 延 时 比较 普 重 。 传 统 数据 库 中 在 秒 级 别 可 以 完成 的 
查询 ， 在 Hive 中 ， 即 使 数据 集 相 对 较 小 ， 往 往 也 需要 执行 更 长 的 时 间 
上 。 最 后 需要 说 明 的 是 ，Hive 不 支持 事务 。 


因此 ，Hive 不 支持 OLTP (联机 事务 处 理 ) 所 需 的 关键 功能 ， 而 更 
接近 成 为 一 个 OLAP (联机 分 析 技 术 ) 工具 。 但 是 我 们 将 会 看 到 ， 由 于 
Hadoop 本 身 的 时 间 开 销 很 大 ， 并 且 Hadoop 所 被 设计 用 来 处 理 的 数据 规 
模 非 常 大 ， 因 此 提交 查询 和 返回 结果 是 可 能 具有 非常 大 的 延 时 的 ， 所 
以 Hive 并 没有 满足 OLAP 中 的 “联机 ”部 分 ， 至 少 目 前 并 没有 满足 。 


如 果 用 户 需 要 对 大 规模 数据 使 用 OLTP 功 能 的 话 ， 那 么 应 该 选择 使 
用 一 个 NoSQL 数 据 库 ， 例 如 ， 和 Hadoop 结 合 使 用 的 HBaset5 及 
Cassandrab3l。 如 果 用 户 使 用 的 是 Amazon 弹 性 MapReduce 计 算 系 统 
(EMR) 或 者 弹性 计算 云 服务 (EC2) 的 话 ， 也 可 以 使 用 
DynamoDBI4。 用 户 甚 至 可 以 和 这 些 数 据 库 (还 包括 其 他 一 些 数据 库 ) 
结合 来 使 用 Hive， 这 个 我 们 会 在 第 17 章 进行 介绍 。 


因此 ，Hive 是 最 适合 数据 仓库 应 用 程序 的 ， 其 可 以 维护 海量 数 
据 ， 而 且 可 以 对 数据 进行 挖掘 ， 然 后 形成 意见 和 报告 等 。 


因为 大 多 数 的 数据 仓库 应 用 程序 是 使 用 基于 SQL 的 关系 型 数据 库 
实现 的 ， 所 以 Hive 降 低 了 将 这 些 应 用 程序 移植 到 Hadoop 上 的 障碍 。 用 
户 如 果 懂 得 SQL， 那 么 学 习 使 用 Hive 将 会 很 容易 。 如 果 没 有 Hive， 那 么 
这 些 用 户 就 需要 去 重新 学 习 新 的 语言 和 新 的 工具 后 才能 进行 生产 。 


同样 地 ， 相 对 于 其 他 Hadoop 语 言 和 工具 来 说 ，Hive 也 使 得 开发 者 
将 基于 SQL 的 应 用 程序 移植 到 Hadoop 变 得 更 加 容易 。 


不 过 ， 和 大 多 数 SQL 方 言 一 样 ，HiveQL 并 不 符合 ANSI SQL 标准 ， 
其 和 Oracle，MySQL，SQL Server 文 持 的 常规 SQL 方言 在 很 多 方面 存在 
差异 〈 不 过 ，HiveQL 和 MySQL 提 供 的 SQL 方言 最 接近 ) 。 


办 此 ， 本 书 共 有 两 个 目的 。 其 一 ， 本 书 提供 了 一 个 针对 所 有 用 户 
的 介绍 。 这 个 介绍 会 比较 综合 ， 并 且 会 使 用 例子 来 进行 讲解 。 适 用 的 
用 户 包括 开发 者 、 数 据 库 管 理 员 和 架构 师 ， 以 及 其 他 (如 商业 分 析 师 
等 ) 非 技术 类 用 户 。 


其 二 ， 本 书 针对 开发 者 和 Hadoop 管 理 员 等 需要 深入 了 解 Hive 技 术 
细 下 的 用 户 提供 了 更 详尽 的 讲述 ， 以 帮助 这 些 用 户 学 习 如 何 优化 Hive 
ee 
Hive ° 


因为 Hive 缺 少 好 的 文档 ， 所 以 我 们 经 历 了 不 少 的 挫折 才 完 成 了 这 
本 书 。 特 别 是 对 于 那些 非 开 发 者 以 及 不 习惯 通过 查看 项 目 BUG 记 录 和 
功能 数据 库 、 源 代码 等 途径 来 获取 其 所 需 信息 的 用 户 ，Hive 并 没有 提 
供 好 的 文档 。Hive Wiki 提供 的 信息 价值 很 大 ， 但 是 其 中 的 解释 有 时 
太 少 了 ， 而 且 常 常 没有 进行 及 时 的 更 新 。 我 们 希望 本 书 可 以 弥补 这 些 
不 足 ， 可 以 提供 一 个 对 于 Hive 的 所 有 基本 功能 以 及 如 何 高 效 使 用 这 些 
功能 的 综合 性 的 指南 [中 。 


1.1 HadoopP 和 MapReduce 综 壕 


如 果 用 户 已 经 熟悉 Hadoop 和 MapReduce 计 算 模型 的 话 ， 那 么 可 以 
跳 过 本 节 。 虽 然 用 户 无 需 精 通 MapReduce 就 可 以 使 用 Hive， 但 是 理解 
MapReduce 的 基本 原理 将 帮 有 助 于 用 户 了 解 Hive 在 确 层 是 如 何 运作 的 ， 
以 及 了 解 如 何 才 能 更 高 效 地 使 用 Hive 。 


我 们 在 这 里 提供 了 一 个 关于 Hadoop 和 MapReduce 的 简要 描述 。 更 
多 细节 ， 请 参考 Tom White (O’Reilly) 所 著 的 《Hadoop 双 威 衣 房 》 一 
书 O 


MapReduce 

MapReduce 是 一 种 计算 模型 ， 该 模型 可 将 大 型 数据 处 理 任务 分 解 成 
很 多 单个 的 、 可 以 在 服务 器 集群 中 并 行 执行 的 任务 。 这 些 任 务 的 计算 
结果 可 以 合并 在 一 起 来 计算 最 终 的 结果 。 


MapReduce 编 程 模 型 是 由 谷歌 (Google) 开 发 的 。Google 通 过 一 篇 很 
影响 力 的 论文 对 这 个 计算 模型 进行 了 摘 述 ， 本 书 附录 部 分 可 查看 到 


该 论文 ， 名 为 《MapReduce: 大 数据 之 上 的 简化 数据 处 理 》。 一 年 后 ， 
另 一 篇 名 为 《Google 文 件 系统 》 的 论文 介绍 了 Google 文 件 系统 。 这 两 
篇 论文 启发 了 道 : 卡 (Doug Cutting) 开发 了 Hadoop。 


MapReduce 这 个 术语 来 目 于 两 个 基本 的 数据 转换 操作 : map 过 程 和 
reduce 过 程 。 一 个 map 操 作 会 将 集合 中 的 元 素 从 一 种 形式 转换 成 另 一 种 
形式 。 在 这 种 情况 下 ， 输 入 的 键 - 值 对 会 被 转换 成 零 到 多 个 键 - 值 对 答 
出 。 其 中 ， 输 入 和 输出 的 键 必 须 完 全 不 同 ， 而 输入 和 输出 的 值 则 可 能 


完全 不 同 。 


在 MapReduce 计 算 框 架 中 ， 某 个 键 的 所 有 键 - 值 对 都 会 被 分 发 到 同 
一 个 reduce 操 作 中 。 确 切 地 说 ， 这 个 键 和 这 个 键 所 对 应 的 所 有 值 都 会 被 
传递 给 同一 个 Reducer。reduce 过 程 的 目的 是 将 值 的 集合 转换 成 一 个 值 
(例如 对 一 组 数值 求 和 或 求 平均 值 ， 或 者 转换 成 另 一 个 集合 。 这 个 
Reducer 最 终 会 产生 一 个 键 - 值 对 。 再 次 说 明 一 下 ， 和 输入 和 输出 的 键 和 值 
可 能 是 不 同 的 。 需 要 说 明 的 是 ， 如 果 job 不 需要 reduce 过 程 的 话 ， 那 么 
也 是 可 以 无 reduce 过 程 的 。 


Hadoop 提 供 了 一 套 基础 设施 来 处 理 大 多 数 困 难 的 工作 以 保证 任务 
能 够 执行 成 功 。 例 如 ，Hadoop 决 定 如 果 将 提交 的 job 分 解 成 多 个 独立 的 
map 和 reduce 任 务 (task) 来 执行 ， 它 就 会 对 这 些 task 进 行 调度 并 为 其 分 
配合 适 的 资源 ， 决 定 将 某 个 task 分 配 到 集群 中 哪个 位 置 (如 果 可 能 ， 通 
第 是 这 个 task 所 要 处 理 的 数据 所 在 的 位 置 ， 这 样 可 以 最 小 化 网 络 开 
销 ) 。 它 会 监控 每 一 个 task 以 确保 其 成 功 完 成 ， 并 重启 一 些 失败 的 


task ° 


Hadoop 分 布 式 文件 系统 (也 就 是 HDFS) ， 或 者 一 个 同类 的 分 布 式 
文件 系统 ， 管 理 着 集群 中 的 数据 。 每 个 数据 块 (block) 都 会 被 元 余 多 
份 〈 通 常 默认 会 元 余 3 份 ) ， 这 样 可 以 保证 不 会 因 单个 硬盘 或 服务 器 的 
损坏 导致 数据 丢失 。 同 时 ， 因 为 其 目标 是 优化 处 理 非 第 大 的 数据 集 ， 
所 以 HDFS 以 及 类 似 的 文件 系统 所 使 用 的 数据 块 都 非 肖 大 ， 通 单 是 
64MB 或 古 这 个 值 的 大 和 干 倍 。 这 么 大 的 数据 块 可 以 在 硬盘 上 连续 进行 存 
储 ， 这 样 可 以 保证 以 最 少 的 磁盘 寻 址 次 数 来 进行 写 入 和 读 取 ， 从 而 最 
大 化 提高 读 写 性 能 。 


为 了 更 清晰 地 介绍 MapReduce， 让 我 们 来 看 一 个 简单 的 例子 。 
Word Count 算 法 已 经 被 称 为 是 MapReduce 计 算 框 架 中 的 “Hello World” 程 
序 [了 “。Word Count 会 返回 在 语料库 (单个 或 多 个 文件 ) 中 出 现 的 所 有 


单词 以 及 单词 出 现 的 次 数 。 输 出 内 容 会 显示 每 个 单词 和 它 的 频数 ， 
行 显示 一 条 。 按 照 通常 的 习惯 ， 单 词 (输出 的 键 ) 和 频数 (输出 的 
值 ) 通常 使 用 制 表 符 进 行 分 割 。 


图 1-1 显示 了 在 MapReduce 计 算 框架 中 Word Count 程 序 是 如 何 运作 
的 。 
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这 是 
Reduce 阶段 
图 1-1 使 用 MapReduce 执 行 WordCount 算 法 


这 里 有 很 多 内 容 要 讲 ， 所 以 我 们 会 从 左 到 右 来 讲解 这 个 图 。 


图 1-1 中 左边 的 每 个 mput (输入 ) 框 内 都 表示 一 个 单独 的 文件 。 例 
子 中 有 4 个 文件 ， 其 中 第 3 个 文件 是 个 空 文件 ， 为 了 便于 人 简单 摘 述 ， 其 
他 3 个 文件 都 仅仅 包含 有 少量 几 个 单词 。 


默认 情况 下 ， 每 个 文档 都 会 触发 一 个 Mapper 进 程 进 行 处 理 。 而 在 
实际 场景 下 ， 大 文件 可 能 会 被 划分 成 多 个 部 分 ， 而 每 个 部 分 都 会 被 发 
送 给 一 个 Mapper 进 行 处 理 。 同 时 ， 也 有 将 多 个 小 文件 合并 成 一 个 部 分 
ee ° 不 过 ， 我 们 当前 不 必 深 究 这 些 细节 性 
| 可 和 十。 


MapReduce 计 算 框 以 中 的 输入 和 输出 的 基本 数据 结构 是 键 - 值 对 。 
当 Mapper 进 程 局 动 后 ， 其 将 会 税 频 莹 调 用 来 处 理 文 件 中 的 每 行文 本 。 
每 次 调用 中 ， 传 递 给 Mapper 的 键 是 文档 中 这 行 的 起 始 位置 的 字符 偶 移 
量 。 对 应 的 值 是 这 行 对 应 的 文本 。 


在 WordCount 程 序 中 ， 没 有 使 用 字符 偏 移 量 (也 就 是 没有 使 用 
键 ) 。 值 (也 就 是 这 行文 本 ) 可 以 使 用 很 多 种 方式 进行 分 割 例如， 
按照 空格 分 隔 是 最 简单 的 方式 ， 但 是 这 样 会 遗留 下 不 需要 的 标点 符 
号 ) ， 最 终 这 行文 本 会 被 分 解 成 多 个 单词 。 我 们 同时 假定 Mapper 会 将 
每 个 单词 转换 成 小 写 ， 因 此 对 于 “FUN” 和 “fun” 会 被 认为 是 同一 个 单 


词 。 


最 后 ， 对 于 这 行文 本 中 的 每 个 单词 ，Mapper 都 会 输出 一 个 键 - 值 
对 ， 以 单词 作为 键 并 以 数字 1 作为 值 (这 里 1 表示 “出 现 1 次 ”) 。 需 要 注 
意 的 是 键 和 值 的 输出 数据 类 型 和 输入 数据 类 型 是 不 同 的 。 


Hadoop 神 奇 的 地 方 一 部 分 在 于 后 面 要 进行 的 Sort (排序 ) 和 Shuffle 
(重新 分 发 ) 过 程 。Hadoop 会 按照 键 来 对 键 - 值 对 进行 排序 ， 然 后 “ 重 
新 洗 牌 "， 将 所 有 具有 相同 键 的 键 - 值 对 分 发 到 同一 个 Reducer 中 。 这 里 
有 多 种 方式 可 以 用 于 决定 哪个 Reducer 获 取 哪 个 范围 内 的 键 对 应 的 数 
据 。 这 里 我 们 先 不 必 考 虑 这 些 问 题 。 但 是 出 于 说 明 性 目的 ， 我 们 假设 
人 了 一 个 特殊 的 按 字 母 数字 划分 的 过 程 (在 实际 执行 中 ， 会 有 


对 于 Mapper 而 言 如 果 只 是 简单 地 对 每 个 单词 输出 计数 1 这 样 的 处 理 
的 话 ， 那 么 会 在 Sort 和 Shuffle 过 程 中 产生 一 定 的 网 络 和 磁盘 IO 浪费 
(不 过 ， 这 样 并 不 会 减少 Mapper 的 内 存 使 用 ) 。 有 一 个 优化 就 是 跟踪 
每 个 单词 的 频数 ， 然 后 在 Mapper 结 束 后 只 输出 每 个 单词 在 这 个 Mapper 
中 的 总 频数 。 对 于 这 个 优化 有 好 几 种 实现 方式 ， 但 是 ， 最 简单 的 方式 
应 该 是 逻辑 是 正确 的 ， 而 且 对 于 这 个 讨论 ， 理 由 是 充足 的 。 


每 个 Reducer 的 输入 同样 是 键 - 值 对 ， 但 是 这 次 ， 每 个 键 将 站 Mapper 
所 发 现 的 单词 中 的 某 一 个 单词 ， 而 这 个 键 对 应 的 值 将 站 所 有 Mapper 对 
于 这 个 单词 计算 出 的 频数 的 一 个 集合 。 需 要 注意 的 是 键 的 数据 类 型 和 
值 的 集合 中 元 素 的 数据 类 型 和 Mapper 的 输出 是 一 致 的 。 也 就 是 说 ， 键 
的 类 型 是 一 个 字符 串 ， 而 集合 中 的 元 素 的 数据 类 型 是 整 型 。 


为 了 完成 这 个 算法 ， 所 有 的 Reducer 需 要 做 的 事情 就 是 将 值 集合 
0s 
六 全 


Word Count 不 古 一 个 虚构 的 例子 。 这 个 程序 所 产生 的 数据 可 用 于 
拼写 检查 程序 、 计 算 机 语言 检测 和 翻译 系统 ， 以 及 其 他 应 用 程序 。 


1.2 Hadoop 生 态 系 统 中 的 Hive 


WordCount 算 法 ， 和 基于 Hadoop 实 现 的 大 多 数 算法 一 样 ， 有 那么 点 
复杂 。 当 用 户 真 正 使 用 Hadoop 的 API 来 实现 这 种 算法 时 ， 甚 至 有 更 多 的 
底层 细 布 需要 用 户 上 自己 来 控制 。 这 是 一 个 只 适用 于 有 经 验 的 Java 开 发 人 
员 的 工作 ， 因 此 也 就 将 Hadoop 潜 在 地 放 在 了 一 个 非 程序 员 用 户 无 法 触 
及 的 位 置 ， 即 使 这 些 用 户 了 解 他 们 想 使 用 的 算法 。 


事实 上 ， 许 多 这 些 底层 细节 实际 上 进行 的 是 从 一 个 任务 (job) 到 
下 一 个 任务 (job) 的 重复 性 工作 ,例如 ， 将 Mapper 和 Reducer 一 同 写 入 
某 些 数据 操作 构造 这 样 的 底层 的 繁重 的 工作 ， 通 过 过 滤 得 到 所 需 数 据 
的 操作 ， 以 及 执行 类 似 SQL 中 数据 集 键 的 连接 (JOIN) 操 作 等 。 不 过 到 
运 的 是 ， 存 在 一 种 方式 ， 可 以 通过 使 用 “高 级 ”工具 上 自动 处 理 这 些 情 况 
来 重用 这 些 通用 的 处 理 过 程 。 

这 也 就 是 引入 Hive 的 原因 。Hive 不 仅 提 供 了 一 个 熟悉 SQL 的 用 户 所 


能 熟悉 的 编程 模型 ， 还 消除 了 大 量 的 通用 代码 ， 甚 至 是 那些 有 时 是 不 
得 不 使 用 Java 编 写 的 令 人 杯 手 的 代码 。 
这 束 古 为 什么 Hive 对 于 Hadoop 是 如 此 重要 的 原因 ， 无 论 用 户 古 
0 。 Hive 可 以 让 你 花费 相当 少 的 精力 束 可 以 完成 
量 的 工作 。 


图 1-2 显 示 了 Hive 的 主要 “模块 ”以 及 Hive 是 如 何 与 Hadoop 交 互 工作 
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图 1-2 ”Hive 组 成 模块 


有 好 几 种 方式 可 以 与 Hive 进 行 交 互 。 本 书 中 ， 我 们 将 主要 关注 于 
CLI， 也 殉 是 命令 行 界面 。 对 于 那些 更 喜欢 图 形 用 户 界 面 的 用 户 ， 可 以 
使 用 现在 逐步 出 现 的 商业 和 开源 的 解决 方案 ， 例 如 Karmasphere 发 布 的 
一 个 商业 产品 (http://karmasphere.com) ，Cloudera 提 供 的 开源 的 Hue 项 


目 (https://github.com/cloudera/hue) ， 以 及 Qubole 提 供 的 “Hive 即 服 
务 ” 方 式 (http://qubole.com) ， 等 。 


Hive 发 行 版 中 附带 的 模块 有 CLI， 一 个 称 为 Hive 网 页 界面 (HWI1) 
的 简单 网 页 界面 ， 以 及 可 通过 JDBC、ODBC 和 一 个 Thrift 服 务 器 (参考 
第 16 章 ) 进行 编程 访问 的 几 个 模块 。 


所 有 的 命令 和 查询 都 会 进入 到 Driver (驱动 模块 ， 通 过 该 模块 对 
输入 进行 解析 编译 ， 对 需求 的 计算 进行 优化 ， 然 后 按照 指定 的 步骤 执 
行 (通常 是 启动 多 个 MapReduce 任 务 (job) 来 执行 ) 。 当 需要 启动 
MapReduce 任 务 (job) 时 ，Hive 本 号 是 不 会 生成 Java MapReduce 算 法 
程序 的 。 相 反 ，Hive 通 过 一 个 表示 job 执行 计划 ”的 XML 文 件 驱 动 执 行 
内 置 的 、 原 生 的 Mapper 和 Reducer 模 块 。 换 名 话说， 这 些 通用 的 模块 函 
而 这 个 驱动 计算 的 “语言 "是 以 XML 形 
式 编码 的 。 


Hive 通 过 和 JobTracker 通 信 来 初始 化 MapReduce 任 务 os 而 个 
必 部 署 在 JobTracker 所 在 的 管理 节点 上 执行 。 在 大 型 集群 中 ， 通 芝 会 
网 关机 专门 用 于 部 署 像 Hive 这 样 的 工具 。 在 这 些 网 关机 上 可 远程 和 管 
理 节 点 上 的 JobTracker 通 信 来 执行 任务 (job) 。 通 常 ， 要 处 理 的 数据 文 
件 是 存储 在 HDFS 中 的 ， 而 HDFS 是 由 NameNode 进 行 管理 的 。 


Metastore (元 数据 存储 ) 是 一 个 独立 的 关系 型 数据 库 (通常 是 一 
个 MySQL 实 例 ) ，Hive 会 在 其 中 保存 表 模 式 和 其 他 系统 元 数据 。 在 我 
们 将 详细 进行 讨论 。 


尽管 本 书 和 是 关于 Hive 的 ， 不 过 还 是 有 必要 提 及 其 他 的 一 些 高 级 工 
， 这 样 用 户 可 以 根据 需求 进行 选择 。Hive 最 适合 于 数据 仓库 程序 ， 
对 于 数据 他 车程 序 不 需要 实时 啊 应 查询 ， 不 需要 记录 级 别 的 插入 、 更 
新 和 删除 。 当 然 ，Hive 也 非常 适合 于 有 一 定 SQL 知识 的 用 户 。 不 过 ， 用 
户 的 某 些 工 作 可 能 采用 其 他 的 工具 会 更 容易 进行 处 理 。 


1.2.1 Pig 


Hive 的 蔡 代 工具 中 最 有 名 的 就 是 Pig 了 (请 参考 
http://pig.apache.org) 。Pig 是 由 Yahoo! 开 发 完成 的 ， 而 同时 期 Fackbook 
正在 开发 Hive。Pig 现 在 同样 也 是 一 个 和 Hadoop 紧 密 联 系 的 顶级 Apache 
项 目 。 


假设 用 户 的 输入 数据 具有 一 个 或 者 多 个 源 ， 而 用 户 需要 进行 一 组 
复杂 的 园 换 来 生成 一 个 或 者 多 个 输出 数据 集 。 如 果 使 用 Hive， 用 户 可 
能 会 使 用 典 套 查询 (正如 我 们 将 看 到 的 ) 来 解决 这 个 问题 ， 但 是 在 某 
些 时 刻 会 需要 重新 保存 临时 表 (这 个 需要 用 户 自 己 进行 管理 来 控制 


Pig 被 描述 成 一 种 数据 流 语言 ， 而 不 是 一 种 得 询 语言 。 在 Pig 中 ， 用 
户 需要 写 一 系列 的 声明 语句 来 定义 某 些 关系 和 其 他 一 些 关 系 之 间 的 联 
系 ， 这 里 每 个 新 的 关系 都 会 执行 新 的 数据 转换 过 程 。Pig 会 查找 这 些 声 
明 ， 然 后 创建 一 系列 有 次 序 的 MapReduce 任 务 (job) ， 来 对 这 些 数 据 
进行 转换 ， 直 到 产生 符合 用 户 预 期 的 计算 方式 所 得 到 的 最 终结 果 。 


这 种 步 进 式 的 数据 * 流 ?可 以 比 一 组 复杂 的 查询 更 加 直观 。 也 因 
此 ，Pig 常 用 于 ETL 《数据 抽取 ， 数 据 转换 和 数据 装载 ) 过 程 的 一 部 
人 部 数据 装载 到 Hadoop 集 群 中 ， 然 后 转换 成 所 期 望 的 数 
es 


Pig 的 一 个 缺点 就 是 其 所 使 用 的 定制 语言 不 是 基于 SQL 的 。 这 是 可 
以 理解 的 ， 因 为 Pig 本 身 就 不 是 被 设计 为 一 种 查询 语言 的 ， 但 是 这 也 意 
味 着 不 适合 将 SQL 应 用 程序 移植 到 Pig 中 ， 而 经 验 丰 富 的 SQL 用 户 可 能 
需要 投入 更 高 的 学 习 成 本 来 学 习 Pig 。 


然而 ， Hadoop 团 队 通常 会 将 Hive 和 Pig 结 合 使 用 ， 对 于 特定 的 工作 
选择 合适 的 工具 。 


Alan Gates (O’Reilly) 所 编著 的 《Pig 编 程 指南 》 一 书 对 于 Pig 进 行 
了 全 面 的 介绍 。 


1.2.2 HBase 


如 采用 户 需 要 Hive 无 法 提供 的 数据 库 特 性 (如 行 级 别 的 更 新 ， 快 
速 的 查询 响应 时 间 ， 以 及 文 持 事务 ) 的 话 ， 那 么 该 怎么 办 呢 ? 


HBase 是 一 个 分 布 式 的 、 可 伸缩 的 数据 存储 ， 其 支持 行 级 别 的 数据 
更 新 、 快 速 查 询 和 行 级 事务 (但 不 支持 多 行事 务 ) 。 


HBase 的 设计 灵感 来 自 于 谷歌 《Google) 的 BigTable， 不 过 HBase 
并 没有 实现 BigTable 的 所 有 特性 。HBase 支 持 的 一 个 重要 特性 就 是 列 存 


储 ， 其 中 的 列 可 以 组 织 成 列 族 。 列 族 在 分 布 式 集群 中 物理 上 是 存储 在 
一 起 的 。 这 束 使 得 当 查 询 场 景 涉及 的 列 只 古 所 有 列 的 一 个 子 集 时 ， 读 
写 速度 会 快 得 多 。 因 为 不 需要 读 取 所 有 的 行 然后 丢弃 大 部 分 的 列 ， 而 
征 只 需 读 取 需 要 的 列 。 


可 以 像 键 - 值 存 储 一 样 来 使 用 HBase， 其 每 一 行 都 使 用 了 一 个 唯一 
键 来 提供 非常 快 的 速度 读 写 这 一 行 的 列 或 者 列 族 。HBase 还 会 对 每 个 列 
保留 多 个 版 本 的 值 按照 时 间 戳 进行 标记 ) ， 版 本 数量 是 可 以 配置 
的 ， 因 此 ， 如 果 需 要 ， 可 以 “时 光 倒 流 ” 回 退 到 之 前 的 某 个 版 本 的 值 。 


最 后 ，HBase 和 Hadoop 之 间 是 什么 关系 ? HBase 使 用 HDFS (或 其 
他 某 种 分 布 式 文件 系统 ) 来 持久 化 存储 数据 。 为 了 可 以 提供 行 级 别 的 
数据 更 新 和 快速 查询 ，HBase 也 使 用 了 内 存 缓存 技术 对 数据 和 本 地 文件 
进行 追加 数据 更 新 操作 日 志 。 持 和 久 化 文件 将 定期 地 使 用 附加 日 志 更 新 
进行 更 新 等 操作 。 


HBase 没 有 提供 类 似 于 SQL 的 查询 语言 ， 但 是 Hive 现 在 已 经 可 以 和 
HBase 结 合 使 用 了 。 在 第 17.3 节 “HBase” 中 我 们 将 讨论 这 个 结合 。 


天 于 HBase 的 更 多 信息 ， 请 参考 HBase 的 官方 网 站 ， 以 及 参阅 
LarsGeorge 所 著 的 《HBase 权 威 指南 》 一 书 。 


1.2.3 ”Cascading、Crunch 及 其 他 


Apache Hadoop 生 态 系统 之 外 还 有 几 个 “高 级 ”语言 ， 它 们 也 在 
Hadoop 之 上 提供 了 不 错 的 抽象 来 减少 对 于 特定 任务 (job) 的 底层 编码 
工作 。 为 了 叙述 隐 完 整 性 ， 下 面 我 们 列举 其 中 的 一 些 来 进行 介绍 。 所 
有 这 些 都 是 JVM (Java 虚 拟 机 ) 库 ， 可 用 于 像 Java、Clojure、Scala、 
JRuby、Groovy 和 Jython， 而 不 是 像 Hive 和 Pig 一 样 使 用 目 己 的 语言 工 
目 。 


使 用 这 些 编程 语言 既 有 好 处 也 有 浆 端 。 它 使 这 些 工具 很 难 吸引 熟 
悉 SQL 的 非 程序 员 用 户 。 不 过 ， 对 于 开发 工程 师 来 说 ， 这 些 工 具 提 供 
了 图 灵 完 全 的 编程 语言 的 完全 控制 。Hive 和 Pig 都 是 图 灵 完 全 性 的 〈 译 
者 注 : 图 灵 完 全 性 通常 是 指 具 有 无 限 存储 能 力 的 通用 物理 机 器 或 编程 
语言 ) 。 当 我 们 需要 Hive 本 身 没 有 提供 的 额外 功能 时 ， 我 们 需要 学 习 
如 何 用 Java 编 码 来 扩展 Hive 功 能 ( 见 表 1-1)。 


表 1-1 其 他 可 选 的 Hadoop 之 上 的 高 级 语言 库 


提供 数据 处 理 抽象 的 Java API。 目 前 


Casading | http://cascading.org 下 放言 
， 征 到 jj 十 百 ， 


例如 Scala、Groovy、JRuby 和 Jython 


Casading 的 一 个 Clojure DSL， 其 提供 了 
https://github.com/nathanmarz/ 于 Datalog 处 理 和 查询 


泌 
cascaLog 而 产生 的 附属 功能 


Casalog 


提供 了 可 定义 数据 流 管道 的 Java 和 Scala 
API 


Crunch |https://github.com/cloudera/crunch 


因为 Hadoop 走 面 癌 批 处 理 系统 的 ， 人 
使 用 不 同 的 分 布 式 计算 模式 的 工具 。 对 事件 流 进行 处 理 时 ， 需 
乎 “实时 ”响应 。 这 里 我 们 列举 了 其 中 一 些 项 目 ( 见 表 1-2) 。 


表 1-2 没有 使 用 MapReduce 的 分 布 式 处 理工 具 


人 基于 Scala API 的 分 布 式 数据 集 的 分 布 式 计算 
. 框架 。 其 可 以 使 用 HDFS 文 件 ， 而 且 其 对 了 
ee MapReduce 中 多 种 计算 可 以 提供 显著 的 性 能 改 
PO 进 。 同 时 还 有 一 个 将 Hive 指 向 Spark 的 项 目 ， 称 作 
Shark (http://shark.cs.berkeley.edu/) 


https://github.com/ 一 个 实时 事件 流 处 理 系 统 
nathanmarz/storm 


http://incubator.apache.org 一 个 分 布 式 的 发 布 -订阅 消息 传递 


/DA 


/kafka/index.html 


最 后 ， 当 无 需 一 个 完整 的 集群 时 (例如 ， 处 理 的 数据 集 很 小 ， 或 
者 对 于 执行 某 个 计算 的 时 间 要 求 并 不 苛刻 ， 还 有 很 多 可 选 的 工具 可 
0 如 型 算法 或 者 对 数据 子 集 进 行 探索 。 表 1-3 列 举 了 一 些 相 
对 比较 热门 的 工具 


表 1-3 ”其 他 数据 处 理 语言 和 工具 


个 用 于 统计 分 析 和 数据 图 形 
源 语言 ， 通常 在 数据 < i 
http://r-project.org/ 家 等 人 群 中 很 受 欢迎 
系统 ， Pe 


的 。 社 区 正 努 力 将 R 和 Hadoop 结 合 起 来 


a http://www.mathworks.com/ | 一 个 受 工程 师 和 科学 家 欢迎 的 商业 数 和 
products/matlab/index.html] | 析 和 数值 方法 计算 系统 


Octave http://www.gnu.org/ Matlab 对 应 的 一 个 开源 版 
software/octave/ 
. 一 个 商业 数据 分 省 析 、 人 工 智能 和 数值 方法 
人 http://www.wolfram.com/ 运算 系统 统 ， 这 是 个 可 以 受 科学 家 和 工程 师 
mathematica/ 欢迎 的 工 


http://scipy.org 数 的 、 使 用 Python 进行 


1.3 Java 和 Hive: 词 频 统计 算法 
如 果 用 户 不 是 Java 工 程 师 ， 那 么 可 以 直接 跳 到 下 一 
如 果 用 户 是 名 Java 工 程 师 ， 那 么 可 能 需要 阅读 本 节 ， 因 为 用 户 需 


为 其 所 在 组 织 的 Hive 用 户 提 供 技术 支持。 你 可 能 会 质疑 如 何 使 用 Hive 
解决 自己 的 工作 。 如 末 是 这 样 的 话 ， 那 么 可 以 和 完 看 看 下 面 这 个 实现 了 


之 前 我 们 所 讨论 的 Word Count 算 法 的 例子 ， 我 们 先 学 会 使 用 Java 
MapReduce API， 然 后 再 学 习 如 何 使 用 Hive 。 


通常 都 会 使 用 Word Count 作 为 用 户 学 习 使 用 Java 编 写 MapReduce 程 
序 的 例子 ， 因 为 这 样 用 户 可 以 关注 于 API。 因 此 ，Word Count 已 经 成 为 
Hadoop 世 界 中 的 “Hello World” 程 序 了 。 


Apache Hadoop 分 支 版 本 中 包含 有 下 面 的 这 个 Java 实 现 lL。 如 果 读 
者 并 不 了 解 Java (但 是 你 仍 在 读本 节 内 容 的 话 ) ， 也 不 必 担 心 ， 我 们 提 
供 这 个 代码 只 是 为 了 方便 用 户 进 行 大 小 对 比 。 


package org.myorg; 


import java.io.IOException,; 
import java.util.*,; 


import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.conf.*,; 

import org.apache.hadoop.io.*,; 

import org.apache.hadoop .mapreduce .*， 

import org.apache.hadoop.mapreduce.1ib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.1ib.input.TextInputFormat; 
import org.apache.hadoop.mapreduce.1ib.output.FileOutputFormat,; 
import org.apache.hadoop.mapreduce.1ib.output.TextOutputFormat,; 


public class WordCount { 


public static class Map extends Mapper<Longwritable, Text, Text, Intwritable> { 
private final static Intwritable one = new Intwritable(1); 
private Text word = new Text(); 


public void map(Longwritable key, Text value, Context context) 
throws IOException, InterruptedException { 
String line = value.toString(); 
StringTokenizer tokenizer = new StringTokenizer(line); 
while (tokenizer.hasMoreTokens()) { 
word.set(tokenizer.nextToken( )); 
context .write(word, one); 


public static class Reduce extends Reducer<Text, Intwritable, Text, Intwritable> 
{ 
public void reduce(Text key, Iterable<IntwWritable> values, Context context) 
throws IOException, InterruptedException { 
int sum = 0; 
for (Intwritable val : values) { 
sum += val.get(); 


} 


context .write(key, new Intwritable(sum)); 


public static void main(String[] args) throws Exception 
Configuration conf = new Configuration(); 


一 


Job job = new Job(conf, "wordcount"); 


job.setOutputkeyClass(Text.class); 
job.setoutputValueClass(Intwritable.class); 


job.setMapperClass(Map.class); 
job.setReducerClass(Reduce.class); 


job.setIinputFormatClass(TextInputFormat.class); 
job .setOoutputFormatClass(TextOutputFormat .class); 


FileInputFormat.addInputPath(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 


job.waitForCompletion(true); 


上 面 是 一 个 有 63 行 的 Java 代 码 。 我 们 不 会 详细 解释 其 中 的 APISJ 。 
如 下 是 使 用 HiveQL 进 行 的 相同 的 运算 ， 这 时 只 有 8 行 代码 ， 而 且 不 需 
进行 编译 然后 生成 一 个 JAR” Java 压缩 包 ) 文件 。 


CREATE TABLE docs (line STRING ) ; 


LOAD DATA INPATH 'docs' OVERWRITE INTO TABLE docs 
CREATE TABLE word*counts AS 


SELECT word，count(1) AS count FROM 

(SELECT explode(split(line, '\s')) AS word FROM docs) w 
GROUP BY word 
ORDER BY word ， 


我 们 稍 后 会 解释 所 有 这 些 HiveQL 语 法 。 


在 上 面 两 个 例子 中 ， 都 古 使 用 尽 可 能 位 单 的 方法 将 文件 中 的 内 容 
分 割 成 单词 ， 也 可 是 按照 空格 进行 划分 的 。 这 个 方法 不 能 很 好 地 处 理 
标点 ， 同 时 也 不 能 识别 同一 个 单词 的 单数 和 复数 形式 ， 等 等 。 不 过 ， 
这 里 这 么 使 用 已 经 可 以 达到 我 们 的 目的 了 。[0 


借助 Java API 可 以 定制 和 调整 一 个 算法 实现 的 每 个 细 市 。 不 过 ， 大 
多 数 情 况 下 ， 用 户 都 不 需要 这 个 级 别 的 控制 ， 而 且 当 用 户 需要 控制 所 
有 那些 细节 时 也 会 相当 地 放 慢 用 户 的 开发 进度 。 


如 果 你 不 是 一 名 程序 员 ， 那 么 也 就 用 不 着 写 Java MapReduce 代 码 
了 。 不 过 ， 如 果 你 已 经 熟悉 SQL 了， 那么 学 习 Hive 将 会 相当 地 容易 ， 而 
且 很 多 程序 也 都 很 容易 快速 实现 。 


1.4 ”后续 事 情 

我 们 描述 了 Hive 在 Hadoop 生 态 系统 中 所 扮演 的 重要 角色 。 现 在 我 
们 开始 ! 
[1] 不 过 ， 因 为 Hive 是 被 设计 用 来 处 理 的 大 数据 集 的 ， 这 个 启动 所 消耗 
的 时 间 和 实际 数据 处 理 时 间 相 比 是 微乎其微 的 。 


[2] 请 访问 Apache HBase 的 官方 网 站 ，http://hbase.apache.org, 以 及 Lars 
George(O’Reilly) 所 车 的 《HBase 权 威 指 丙 》 一 书 。 


[3] 请 参考 Cassandra 的 官方 网 站 ，http://cassandra.apache.org/, 以 及 参考 
Edward Capriolo (Packt) 所 车 的 《High Performance Cassandra 
Cookbook》 一 书 。 

[4] 请 参考 DynamoDB 的 官方 网 站 ，http://aws.amazon.com/dynamodb/。 
[5] 参 考 链接 https://cwiki.apache.org/Hive/。 


[6] 人 不 过 ， 非 第 有 必要 将 这 个 wiki 链 接 加 入 到 网 址 收藏 夹 中 ， 因 为 wiki 中 
包 售 了 一 些 我 们 没有 和 窗 盖 的 、 比 较 模 糊 的 信息 。 


wn 是 开发 者 的 用 户 ， 这 里 需要 补充 说 明 的 是 “Hello World” 程 序 
通常 是 学 习 一 门 新 的 语言 或 者 工具 集 的 第 一 个 程序 。 


[8]Apache Hadoop word count: http://wiki.apache.org/hadoop/WordCount. 
[9] 详 细 信 息 请 参考 Tom White 所 著 的 《Hadoop 权 威 指南 》 一 书 。 


[10] 还 有 一 个 微小 的 差异 。Hive 查 询 便 编 码 指定 一 个 指向 数据 的 路 径 ， 
而 Java 代 码 把 这 个 路 径 作为 一 个 输入 参数 处 理 。 在 第 2 章 ， 我 们 将 学 习 
如 何在 Hive 脚 本 中 使 用 * 变 量 * 来 避免 这 种 便 编 码 。 


第 2 章 ”基础 操作 


证 我 们 来 在 个 人 工作 站 上 安装 Hadoop 和 Hive 吧 。 这 是 学 习 和 体验 
Hadoop 的 一 个 便捷 的 方式 。 之 后 我 们 将 讨论 如 何 配置 Hive 以 了 解 如 何 
在 Hadoop 集 群 上 使 用 Hive 。 


如 果 用 户 已 经 在 使 用 亚马逊 网 络 服务 (AWS) 了 ， 那 么 建立 一 个 
供 学 习 Hive 的 最 快速 途径 是 在 亚马逊 弹性 MapReduce 系 统 (EMR) 中 
提交 一 个 Hive 任 务 。 我 们 在 第 21 章 将 会 讨论 这 种 方式 。 


如 果 用 户 已 经 会 使 用 安装 有 Hive 的 Hadoop 集 群 的 话 ， 那 么 我 们 建 
议 可 以 跳 过 本 章 的 第 一 部 分 而 直接 从 ”开始 看 。 


2.1 ”安装 预先 配置 好 的 虚拟 机 


用 户 可 以 通过 多 种 方式 来 安装 Hadoop 和 Hive。 安 装 一 个 完整 的 
Hadoop 系 统 (包含 有 Hive) 的 一 个 最 容易 的 方式 就 是 下 载 一 个 预先 配 
置 好 的 刻 故 胡 〈VM) ， 这 个 虚拟 机 可 以 在 VMWarel! 或 者 VirtualBoxl1 
中 执行 。 对 于 VMWare， 可 以 使 用 Windows 或 Linux (免费 的 ) 的 
VMWarePiayer， 也 可 以 使 用 Mac OS X〈 需 付费 但 并 不 贵 ) 的 VMWare 
Fusion。VirtualBox 在 这 些 平台 (包含 有 Solaris 平 台 ) 中 都 是 免费 的 。 


虚拟 机 使 用 Linux 作 为 操作 系统 ， 这 也 是 在 生产 情况 下 运行 Hadoop 
的 唯一 指定 操作 系统 Bl 。 


本 a 
OQ 
a | 
[a | A 一 
eb 提示 


在 Windows 系 统 中 目前 使 用 Hadoop 的 唯一 方式 就 是 使 用 虚拟 
机 ， 即 使 安装 了 Cygwin 或 其 他 类 似 的 类 UNIX 软 件 。 


目前 提供 的 大 多 数 预 先 配置 好 的 虚拟 机 (VM) 仅 是 为 VMWare 设 
计 的 ， 但 是 如 果 用 户 偏好 使 用 VirtualBox， 那 么 也 是 可 以 在 网 站 上 找到 
如 何 将 某 个 特定 的 VM 导 入 到 VirtualBox 的 指南 的 。 


用 户 可 以 从 表 2-14 提 供 的 网 站 中 下 载 指定 的 预先 配置 好 的 虚拟 
机 。 根 据 这 些 网 站 上 的 指南 可 以 下 载 并 导入 到 VMWare 的 虚拟 机 。 


表 2-1 为 YMWare 提 供 的 预先 配置 好 的 Hadoop 虚 拟 机 
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下 一 步 ， 可 以 直接 从 第 2.3 节 “Hive 内 部 是 什么 "开始 看 。 


2.2 ”安装 详细 步骤 


虽然 使 用 一 个 预先 配置 好 的 虚拟 机 可 能 是 使 用 Hive 的 一 个 便捷 方 
式 ， 但 是 自己 安装 Hadoop 和 Hive 可 以 让 用 户 更 清楚 地 知道 这 些 工 具 是 
如 何 工作 的 ， 特 别 是 ， 如 采用 户 是 一 个 开发 者 的 话 ， 这 个 很 重要 。 


下 面 所 提供 的 指南 摘 述 的 是 在 用 户 个 人 Linux 或 者 Mac OS X 工 作 站 
中 安装 Hadoop 和 Hive 所 必需 的 最 少 的 步 又。 对 于 生产 环境 下 的 安 闭 过 


程 ， 请 查阅 所 使 用 的 Hadoop 分 支 推荐 的 安装 流程 。 
2.2.1 ” 装 Java 


Hive 依 赖 于 Hadoop， 而 Hadoop 依 赖 于 Java。 用 户 需 要 确认 使 用 的 
操作 系统 中 安装 有 v1.6.* 或 者 v1.7.* 版 本 的 JVM (Java 虚拟 机 ) 。 尽 管 
用 户 执 行 Hive 只 需要 使 用 到 JRE (Java 运 行 时 环境 ) ， 但 是 本 书 中 还 是 
演示 了 如 何 使 用 Java 编码 对 Hive 进 行 扩展 ， 因 此 用 户 还 需要 安装 完整 
的 JDK (Java 开 发 工具 集 ) 来 编译 这 些 例子 。 但 是 ， 如 果 用 户 不 是 开发 
者 ， 可 以 不 进行 此 操作 ， 本 书 所 附带 的 源码 分 支 版 本 中 已 经 包含 有 编 
译 过 的 例子 了 。 


安装 完成 后 ， 用 户 需要 确认 Java 已 经 存在 于 环境 中 ， 而 且 已 经 设置 
好 了 JAVA_HOME 环 境 变量 。 


1. Linux 系 统 中 Java 安 装 步骤 


在 Linux 操 作 系 统 上 ， 下 面 的 指令 是 在 /etc/profile.d/ 目 录 下 创建 一 个 
bash 文 件 ， 其 为 所 有 的 用 户 定 义 了 一 个 JAVA_HOME 环 境 变 量 ， 需 
root 访 问 权 限 才 能 够 修改 这 个 目录 下 的 环境 变量 设置 ， 而 有 旦 修改 将 会 影 
响 到 系统 中 所 有 用 户 。 (我 们 使 用 $ 作 为 bash shell 提 示 符 。) Oracle 
JVM 安 装 程序 通常 会 将 软件 安装 在 /usr/java/jdk-1.6.X (对 于 v1.6 版 本 ) 
目录 下 ， 而 且 会 从 /usr/java/default 和 /usr/java/latest 路 径 建 立 软 链接 到 安 
闭路 径 下 。 


$ /usr/java/latest/bin/java -version 

java version "1.6.0_ 23" 

Java(TM) SE Runtime Environment (build 1.6.0 23-b05) 

Java HotSpot(TM) 64-Bit Server VM (build 19.0-b09, mixed mode) 

$ sudo echo "export JAVA_ HOME=/usr/java/latest" > /etc/profile.d/java.sh 


$ sudo echo "PATH=$ PATH: $ JAVA HOME/bin" >> /etc/profile.d/java.sh 
$ . /etc/profile 

$ echo $JAVA _HOME 

/usr/java/latest 


提示 


如 采 之 前 是 使 用 “特权 账号 ”来 执行 某 个 命令 ， 而 不 是 在 执行 
命令 前 使 用 sudo 命 令 来 执行 的 话 《也 就 是 需要 执行 的 命令 分 为 两 


部 分 : sudo 加 上 用 户 需 要 执行 的 命令 ) ， 那 么 只 需要 按照 提示 要 
求 输入 密码 即 可 。 如 采 是 个 人 计算 机 的 话 ， 用 户 账号 通 音 束 具 
有 “sudo 权 限 ”。 如 条 没有 这 个 权限 ， 可 以 联系 管理 员 执 行 那些 命 


< O 〇 


不 过 ， 如 果 用 户 不 期 望 修改 影响 到 系统 里 所 有 的 用 户 ， 一 个 
替代 方案 就 是 ， 将 PATH 和 JAVA_HOME 环 境 变 量 的 定义 加 入 到 用 户 
的 $HOME/.bashrc 文 件 中 。 


export JAVA HOME=/usr/java/latest 
export PATH=$ PATH: $ JAVA_HOME/bin 
2. Mac OS X 系 统 中 Java 安 装 步骤 


Mac OS X 系 统 没 有 /etc/profile.d 这 样 的 目录 ， 而 且 它 们 通常 是 单 用 
户 系 统 ， 因 此 最 好 将 环境 变量 的 定义 语句 放置 在 $HOME/.bashrc 文 件 
中 。Java 路 径 同 样 也 是 不 同 的 ， 而 且 可 以 位 于 多 个 不 同 的 位 置 Bj。 这 里 
有 一 些 例子 。 用 户 需 要 确认 自己 的 Mac 电 脑 中 Java 的 安装 路 径 ， 然 后 对 
。 下面 是 Mac OS X 系 统 中 Java 1.6 的 环境 配 
实例 : 


$ export JAVA HOME=/System/Library/Frameworks/JavaVM.framework/Versions/ 1.6/Home 


$ export PATH=$PATH:$JAVA_HOME/bin 


下 面 是 Mac OS X 系 统 中 Java 1.7 的 环境 配置 实例 。 


$ export JAVA HOME=/Library/Java/JavaVirtualMachines/1.7.0.jdk/Contents/ Home 


$ export PATH=$PATH:$JAVA_ HOME/bin 


OpenJDK 1.7 发 行 版 也 是 安装 在 /Library/Java/JavaVirtualMachines 目 
孙 下 的 。 


2.2.2 ”安装 Hadoop 


Hive 运 行 在 Hadoop 之 上 。Hadoop 是 一 个 非常 活跃 的 开源 项 目 ， 其 
具有 很 多 的 发 行 版 和 分 文 。 同 时 ， 很 多 的 商业 软件 公司 现在 也 在 开发 
他 们 目 己 的 Hadoop 分 文 ， 有 时 会 对 某 些 组 件 进 行 个 性 化 的 增强 或 者 替 
换 。 这 种 形式 可 以 促进 创新 ， 但 是 同时 也 会 产生 潜在 的 混乱 和 兼容 性 


问题 。 


保持 使 用 最 新 版 本 的 软件 可 以 让 用 户 使 用 最 新 的 增强 功能 并 且 新 
版 本 通常 会 修复 很 多 的 BUG。 随 后 ， 有 时 用 户 可 能 会 发 现 新 的 BUG 以 
及 兼容 性 问题 。 本 书 中 ， 我 们 将 介绍 如 何 安装 Apache Hadoop v0.20.2 发 
行 版 。 这 个 版 本 并 非 是 最 新 稳定 发 行 版 ， 但 是 这 个 版 本 是 性 能 和 兼容 
性 都 可 以 信赖 的 一 个 标准 版 。 


不 过 ， 用 户 应 该 能 够 毫 无 问题 地 选择 一 个 不 同 版 本 、 分 文 或 者 发 
行 版 来 学 习 和 使 用 Hive， 例 如 Apache Hadoop v0.20.205 版 本 或 者 1.0.* 版 
本 ，Cloudera 的 CDH3 或 者 CDH4 版 本 ，MapR 的 M3 或 者 M5 版 本 ， 以 及 
即将 面市 的 Hortonworks 分 支 版 本 。 注 意 Cloudera，MapR 以 及 未 来 的 
Hortonworks 分 支 版 都 包含 有 一 个 捆绑 的 Hive 发 行 版 


不 过 ， 我 们 不 建议 安装 新 的 阿尔 法 版 的 * 下 一 代 的 ?Hadoop v2.0 版 
本 (也 就 是 所 谓 的 v0.23 版 ) ， 至 少 本 书 的 目标 不 是 这 个 版 本 。 虽 然 这 
0 但 是 对 于 我 们 来 说 太 新 


在 Linux 系 统 中 ， 可 以 通过 执行 如 下 命令 安装 Hadoop。 注 意 ， 对 于 
wget 命 令 ， 因 为 这 行 太 长 ， 我 们 将 其 分 为 了 两 行 。 


$ cd -~ # or Use another directory of your choice. 
$ wget \ 
http://www.us.apache.org/dist/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gz 


$ tar -xzf hadoop-0.20.2.tar.gz 

$ sudo echo "export HADOOP_ HOME=$PWD/hadoop-0.20.2" > /etc/profile.d/ hadoop.sh 
$ sudo echo "PATH=$PATH:$HADOOP_HOME/bin" >> /etc/profile.d/hadoop.sh 

$ . /etc/profile 


对 于 Mac OS X 系 统 ， 可 以 通过 执行 如 下 命令 来 安装 Hadoop 。 注 
意 : 对 于 curl 命 令 ， 因 为 这 行 太 长 ， 我 们 将 其 分 为 了 两 行 。 


# or Use another directory of your choice. 


http://www.us.apache.org/dist/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gz 
$ tar -xzf hadoop-0.20.2.tar.gz 
$ echo "export HADOOP_HOME=$PWD/hadoop-0.20.2" >> $HOME/ .bashrc 


$ echo "PATH=$PATH:$HADOOP_HOME/bin" >> $HOME/ .bashrc 
$ . $HOME/.bashrc 


在 下 文中 ， 我 们 将 假设 用 户 ， 像 上 面 的 命令 一 样 ， 已 经 将 
$HADOOP_HOME/bin 加 入 到 环境 变量 路 径 中 了 。 这 样 设置 后 用 户 只 需 
要 输入 hadoop 命 令 即 可 ， 无 需 加 上 路 径 前 级。 


2.2.3 ”本 地 模式 、 伪 分 布 式 模式 和 分 布 式 模式 


在 继续 讲解 之 前 ， 我 们 先 阐明 Hadoop 的 不 同 运 行 模 式 。 我 们 前 面 
提 到 默认 的 模式 是 不 药 模式 ， 这 种 模式 下 使 用 的 是 本 地 文件 系统 。 在 
本 地 模式 下 ， 当 执行 Hadoop job 时 (包含 有 大 多 数 的 Hive 查 询 ) ，Map 
task 和 Reduce task 在 同一 个 进程 中 执行 。 


真实 的 集群 配置 的 都 是 分 认 式 模式 ， 其 中 所 有 没有 完整 URL 指 定 
的 路 径 默认 都 是 分 布 式 文件 系统 (通常 是 HDFS) 中 的 路 径 ， 而 且 由 
JobTracker 服 务 来 管理 job ， 不 同 的 task 在 不 同 的 进程 中 执行 。 


对 于 在 个 人 计算 机 上 工作 的 开发 者 来 说 ， 一 个 进退 两 难 的 实际 问 
题 是 ， 本 地 模式 并 不 能 真实 地 反映 真实 集群 的 行为 状况 ， 这 个 是 测试 
程序 时 需要 记 住 的 事情 。 为 了 解决 这 个 需求 ， 一 台 物 理 机 可 以 配置 成 
在 仿 分 布 趟 秦 式 下 执行 。 这 种 模式 下 执行 的 行为 和 在 分 布 式 模式 下 的 
行为 是 一 致 的 。 也 残 是 说 ， 引 用 的 文件 系统 默认 为 分 布 式 文件 系统 ， 
而 且 由 JobTracker 服 务 来 管理 job， 但 是 实际 上 只 有 一 台 物 理 机 。 因 此 ， 
例如 ，HDFS 文 件 块 元 余数 这 时 限制 为 一 个 备份 。 换 句 话说， 行为 类 似 
于 只 有 一 个 世上 点 的 “集群 *。 在 第 2.5“ 配 置 Hadoop 环 境 ” 中 我 们 会 讨论 
这 些 配 置 项 。 


因为 Hive 中 大 多 数 工 作 是 使 用 Hadoop 的 job， 所 有 Hive 的 行为 可 以 
反映 出 用 户 所 使 用 的 Hadoop 运 行 模式 。 不 过 ， 即 使 在 分 布 式 模式 下 执 
行 ，Hive 还 是 可 以 在 提交 查询 前 判断 是 否 可 以 使 用 本 地 模式 来 执行 这 
个 查询 。 这 时 它 会 读 取 数据 文件 ， 然 后 目 己 管理 MapReduce task， 最 终 
提供 更 快 的 执行 方式 。 不 过 ， 对 于 Hadoop 来 说 ， 不 同 模式 之 间 的 差异 
相对 于 闽 吐 方式 更 多 地 在 于 胡 ( 歪 方式 上 。 


本 书 中 大 部 分 情况 下 ， 不 会 关心 用 户 使 用 的 是 哪 种 模式 。 我 们 将 
假定 用 户 是 以 本 地 模式 在 个 人 计算 机 上 工作 的 ， 而 且 我 们 将 讨论 这 个 
模式 所 影响 的 情况 。 
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当 处 理 小 数据 集 上 时 ， 使 用 本 地 模式 执行 可 以 使 Hive 执 行 得 更 
快 些 。 设 置 如 下 这 个 属性 sethive.exec.mode.local.auto=true: 时 ， 将 


会 触发 Hive 更 主动 地 使 用 这 种 模式 ， 即 使 当前 用 户 是 在 分 布 式 模 
式 或 伪 分 布 式 模式 下 执行 Hadoop 的 。 如 果 想 默认 使 用 这 个 配置 ， 
人 (参考 第 2.7.5“.hiverc 文 
件 ” 章 节 ) 。 


2.2.4 测试 Hadoop 
假设 用 户 使 用 的 是 本 地 模式 ， 我 们 通过 两 种 不 同方 式 来 看 看 本 地 


文件 系统 。 下 面 这 个 是 通过 Linux ls 命令 查看 Linux 系 统 “root” 目 录 下 的 
目 孙 信 息 : 


$1s/ 
bin cgroup etc 1ib lost+found mnt opt root selinux sys user Var 
boot dev home 1ib64 media Null proc sbin Srv tmp usr 


Hadoop 本 身 提供 了 一 个 dfs 工 具 ， 这 个 工具 可 以 提供 对 当前 默认 文 
件 系统 的 基本 文件 的 操作 ， 例 如 ls 命令 。 因 为 现在 我 们 使 用 的 是 本 地 
模式 ， 所 以 当前 默认 的 文件 系统 是 本 地 文件 系统 9 。 


$ hadoop dfs -ls / 
Found 26 items 


drwxrwxrwx - root root 24576 2012-06-03 14:28 /tmp 
- root root 4096 2012-01-25 22:43 /opt 


- root root 16384 2010-12-30 14:56 /lost+found 
drwxr-xr-x - root root © 2012-05-11 16:44 /selinux 
dr-xr-x--- - root root 4096 2012-05-23 22:32 /root 


如 果 用 户 遇 到 错误 信息 提示 “没有 发 现 命令 hadoop”， 那 么 可 以 通过 
直接 指定 绝对 路 径 来 执行 这 个 命令 (例如 ，$HOME/hadoop- 
0.20.2/bin/hadoop) ， 或 者 将 bin 目 录 加 载 到 PATH 环境 变量 中 ， 这 个 在 
前 面 第 2.2.2 市 “安装 Hadoop” 中 讨论 过 了 。 


和 从 提示 
当 你 发 现 需 要 频繁 地 使 用 hadoop dfs 命 令 时 ， 最 好 为 这 个 命令 
定义 一 个 别名 (例如 ，alias hdfs="hadoop dfs") 。 


Hadoop 提 供 了 MapReduce 计 算 框 架 。Hadoop 分 文中 都 会 包含 有 一 
个 Word Count 算 法 实现 ， 这 个 我 们 在 第 1 章 讨论 过 了 “。 现 在 ， 我 们 来 运 


人 下 | 


首先 我 们 要 创建 一 个 输入 目录 (要 位 于 用 户 当前 工作 目录 内 ) 用 
于 存放 将 要 使 用 Hadoop 进 行 处 理 的 文件 : 


$ mkdir wc-in 
$ echo "bla bla" > wc-in/a.txt 


$ echo "bla wa wa " > wc-in/b.txt 


使 用 hadoop 命 令 指定 我 们 刚刚 创建 好 的 文件 输入 目录 来 执行 Word 
Count 程 序 。 需 要 注意 的 是 ， 最 好 每 次 指定 的 文件 输入 和 输出 路 径 都 是 
文件 夹 ， 而 不 是 文件 。 这 是 因为 通常 输入 和 (或 ) 输出 目录 中 都 有 很 
多 的 文件 ， 这 是 系统 并 行 性 的 结 来 。 


如 果 用 户 是 在 本 地 安装 的 软件 上 以 本 地 模式 运行 这 些 命令 的 话 ， 
那么 hadoop 命 令 将 会 在 同一 个 进程 内 加 装 MapReduce 组 件 。 如 条 用 户 是 
在 集群 中 运行 或 者 使 用 伪 分 布 式 模式 在 单 台 机 器 上 执行 的 话 ， 那 么 
hadoop 命 令 将 会 使 用 JobTracker 服 务 启动 一 个 或 者 多 个 不 同 的 进程 (也 
因此 如 下 命令 的 输出 也 将 是 有 些 差 异 的 ) 。 同 时 ， 如 果 用 户 使 用 了 和 
例子 中 版 本 不 同 的 Hadoop 的 话 ， 那 么 需要 根据 情况 修改 一 下 这 个 
examples.jar 的 名 字 。 


$ hadoop jar $HADOOP_HOME/hadoop-0.20.2-examples.jar wordcount wc-in wc-out 
12/06/03 15:40:26 INFO input.FileInputFormat: Total input paths to process : 2 


12/06/03 15:40:27 INFO mapred.JobClient: Running job: job_local 0001 


12/06/03 15:40:30 INFO mapred.JobClient: map 100% reduce 0% 
12/06/03 15:40:41 INFO mapred.JobClient: map 100% reduce 100% 
12/06/03 15:40:41 INFO mapred.JobClient: Job complete: job_local ©0001 


pn Count 程 序 的 输出 结果 可 以 使 用 本 地 文件 系统 的 命令 进 
行 查 看 : 
$ ls wc-out/* 


part-r-00000 
$ cat wc-out/* 


同时 也 可 以 等 价 的 dfs 命 令 进行 查看 (这 是 因为 ， 我 们 假定 是 以 不 
地 樟 式 执行 的 ) : 


$ hadoop dfs -cat wc-out/* 
bla 3 


wa 2 
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对 于 非常 大 的 文件 ， 当 你 只 想 查 询 其 开始 或 者 结尾 部 分 信息 
时 ， 这 里 没有 提供 -moew，-head 或 者 -tail 子 命令 。 替 代 方 式 是 ， 
将 -cat 命 令 的 输出 通过 管道 传递 给 shell 中 的 more、head 或 者 tail 命 
令 ， 例 如 ，hadoop dfs -cat wc-out/* | more 。 


注意 了 我 们 已 经 安装 了 一 个 Hadoop 并 且 对 其 进行 测试 了 ， 下 面 我 
们 来 安装 Hive 。 


2.2.5 ”安装 Hive 


安装 Hive 的 过 程 和 安装 Hadoop 的 过 程 非常 相似 。 我 们 需要 先 下 载 
一 个 Hive 软 件 压缩 包 ， 然 后 进行 解压 缩 。 通 常 这 个 压缩 包 内 不 会 包含 
有 某 个 版 本 的 Hadoop。 一 个 Hive 二 进 制 包 可 以 在 多 个 版 本 的 Hadoop 上 
工作 。 这 也 意味 着 和 Hadoop 版 本 升级 相 比 ， 升 级 Hive 到 新 的 版 本 会 更 
加 容易 和 低 风 险 。 


Hive 使 用 环境 变量 HADOOP_HOME 来 指定 Hadoop 的 所 有 相关 JAR 
和 配置 文件 。 因 此 ， 在 继续 进行 之 前 请 确认 下 是 否 设置 好 了 这 个 环境 
变量 ， 这 个 我 们 之 前 有 讨论 过 的 。 如 下 命令 在 Linux 和 Mac OS X 系 统 中 
都 可 以 执行 。 


$ cd -~ # or Use another directory of your choice. 
$ curl -o http://archive.apache.org/dist/hive/hive-0.9.0/hive-0.9.0-bin. tar.gz 
$ tar -xzf hive-0.9.0.tar.gz 


$ sudo mkdir -p /user/hive/warehouse 
$ sudo chmod a+rwx /user/hive/warehouse 


正如 用 户 可 以 从 这 些 命令 推 疡 到 的 ， 我 们 使 用 的 是 编写 本 书 时 最 
新 最 稳定 的 Hive 发 行 版 ， 也 就 是 v0.9.0 版 本 。 不 过 ， 本 书 中 大 多 数 的 资 
料 也 都 是 可 以 在 Hive v0.7.* 和 Hive v0.8.* 版 本 上 执行 的 。 当 我 们 碰 到 这 
些 资源 的 时 候 ， 我 们 会 讲述 它们 之 间 有 何 差异 。 


用 户 可 能 需要 将 hive 命 令 加 入 到 环境 变量 路 径 中 去 ， 正 如 前 面 我 们 
对 hadoop 进 行 的 处 理 一 样 。 我 们 将 采用 同样 的 方式 ， 首 先 定义 一 个 


HIVE_ HOME 变量 ， 但 是 和 HADOOP_HOME 不 同 的 是 ， 这 个 变量 并 非 
ee °。 本 书 中 某 些 例子 中 我 们 是 假定 已 经 定义 了 这 个 变量 


对 应 Linux 系 统 ， 执 行 这 些 命令 : 


$ sudo echo "export HIVE_ HOME=$PWD/hive-0.9.0" > /etc/profile.d/hive.sh 
$ sudo echo "PATH=$PATH:$HIVE_ HOME/bin >> /etc/profile.d/hive.sh 


$ . /etc/profile 


对 应 Mac OS X 系 统 ， 执 行 这 些 命令 : 


$ echo "export HIVE_ HOME=$PWD/hive-0.9.0" >> $HOME/ .bashrc 
$ echo "PATH=$PATH:$HIVE_ HOME/bin" >> $HOME/ ,bashrc 


$ . $HOME/.bashrc 


2.3 ”Hive 内 部 是 什么 


Hive 二 进 制 分 支 版 本 核心 包含 3 个 部 分 。 主 要 部 分 是 Java 代 码 本 
身 。 在 $SHIVE_HOME/ib 目 录 下 可 以 发 现 有 众多 的 JAR (Java 压缩 包 ) 
文件 ， 例 如 hive-exec*.jar 和 和 hive-metastore*.jar。 每 个 JAR 文 件 都 实现 了 
Hive 功 能 中 某 个 特定 的 部 分 ， 具 体 详 情 我 们 现在 无 需 关 心 。 


$HIVE_HOME/bin 目 录 下 包含 可 以 执行 各 种 各 样 Hive 服 务 的 可 执行 
文件 ， 包 括 hive 命 令 行 界面 (也 就 是 CLI) 。CLI 是 我 们 使 用 Hive 的 最 
常用 方式 。 除 非 有 特别 说 明 ， 否 则 我 们 都 使 用 hive (小 写 ， 固 定 宽度 的 
字体 ) 来 代表 CLI。CLI 可 用 于 提供 交互 式 的 界面 供 输 入 语句 或 者 可 以 
供用 户 执行 含有 Hive 语 名 的“ 脚本”， 这 个 我 们 后 面 会 有 介绍 。 


Hive 还 有 一 些 其 他 组 件 。Thrift 服 务 提 供 了 可 远程 访问 其 他 进程 的 
功能 ， 也 提供 使 用 DBC 和 ODBC 访 问 Hive 的 功能 。 这 些 都 是 基于 Thrift 
服务 实现 的 。 在 后 面 的 多 章 内 容 中 我 们 将 讲述 这 些 功 能 。 


所 有 的 Hive 客 户 端 都 需要 一 个 metastoreservice (元 数据 服务 ) ， 
Hive 使 用 这 个 服务 来 存储 表 模 式 信 息 和 其 他 元 数据 信息 。 通 常情 况 下 
会 使 用 一 个 关系 型 数据 库 中 的 表 来 存储 这 些 信息 。 默 认 情 况 下 ，Hive 
会 使 用 内 置 的 Derby SQL 服务 右 ， 其 可 以 提供 有 限 的 、 单 进程 的 存储 服 
务 。 例 如 ， 当 使 用 Derby 时 ， 用 户 不 可 以 执行 2 个 并 发 的 Hive CLI 实 例 ， 
然而 ， 如 果 是 在 个 人 计算 机 上 或 者 某 些 开 发 任务 上 使 用 的 话 这 样 也 是 


没 问 题 的 。 对 于 集群 来 说 ， 需 要 使 用 MySQL 或 者 类 似 的 关系 型 数据 
库 。 第 2.5.3 节 “使 用 JDBC 连 接 元 数据 ”中 我 们 将 详细 讨论 。 


最 后 ，Hive 还 提供 了 一 个 简单 的 网 页 界面 ， 也 就 是 Hive 网 页 界面 
(HWI) ， 提 供 了 远程 访问 Hive 的 服务 。 


conf 目 如 下 存放 了 配置 Hive 的 配置 文件 。Hive 具 有 非常 多 的 配置 属 
性 ， 根 据 需 要 后 面 我 们 会 进行 介绍 。 这 些 属性 控制 的 功能 包括 元 数据 
存储 〈 如 数据 存放 在 哪里 ) 、 各 种 各 样 的 优化 和 “安全 控制 *， 等 等 。 


2.4 ”启动 Hive 


终于 我 们 可 以 从 Hive 命 令 行 界面 (CLI) 开始 执行 一 些 命令 了 ! 我 
们 会 简要 地 说 明 一 下 出 现 了 什么 情况 ， 而 在 后 面 才 会 进行 详尽 的 讨 


论 。 


在 后 面 的 会 话 中 ， 我 们 将 使 用 $HIVE_HOME/bin/hive 命 令 ， 这 是 
个 bash shell 脚 本 ， 用 于 启动 CLI。 下 面 脚本 中 出 现 的 $HIVE_HOME 可 
以 根据 需要 替换 为 用 户 的 Hive 安 装 目 孙 路 径 。 如 果 用 户 已 经 将 
$HIVE_HOME/bin 加 入 到 环境 变量 PATH 中 了 ， 那 么 只 需要 输入 hive 就 
| 


和 以 前 一 样 ， $ 是 bash 提 示 从 。 在 Hive CLI 中 ， 字 符 串 hive> 是 Hive 
的 提示 符 ， 而 大 于 号 > 是 第 2 个 提示 人 符 。 这 里 有 个 样 例会 话 ， 为 清晰 表 
达 ， 我 们 在 每 个 命令 后 面 都 人 为 地 增加 了 一 个 空 行 : 


$ cd $ HIVE_ HOME 
$ bin/hive 
Hive history file=/tmp/myname/hive_job_log_myname_201201271126_1992326118. txt 


hive> CREATE TABLE x (a INT); 
OK 

Time taken: 3.543 seconds 
hive> SELECT * FROM x; 

Time taken: 0.231 seconds 


hive> SELECT * 
> FROM x; 


OK 
Time taken: 0.072 seconds 


hive> DROP TABLE x; 


OK 

Time taken: 0.834 seconds 
hive> exit; 

$ 


CLI 所 打印 出 的 第 1 行 显示 的 是 CLI 将 关于 用 户 所 执行 的 命令 和 查询 
的 日 志 数 据 所 存放 在 的 本 地 文件 系统 中 的 位 置 。 如 果 一 个 命令 或 者 查 
询 执行 成 功 了 ， 那 么 输出 中 的 第 1 行将 是 OK， 然 后 才 会 紧 跟着 输出 内 
最 后 以 一 行 表示 命令 或 者 查询 执行 所 消耗 的 时 间 的 输出 信息 结 
毛 O 〇 
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贯穿 本 书 ， 我 们 将 按照 SQL 惯例 使 用 大 写字 母 显 示 Hive 的 关键 
字 (例如 ，CREATE, TABLE, SELECT 和 FROM) ， 尽 管 在 Hive 中 
关键 字 是 大 小 写 无 关 的 ， 这 也 和 SQL 的 惯例 是 一 致 的 。 


在 后 面 ， 对 于 所 有 的 会 话 我 们 通常 都 会 在 命令 的 输出 后 面 加 
上 空 行 。 同 时 ， 在 启动 一 个 会 话 的 上 时候， 我 们 也 将 省 略 挥 那 行 天 
于 日 志文 件 所 在 位 置 的 输出 。 对 于 单个 命令 或 者 查询 ， 除 非 在 特 
别 的 情况 下 (例如 当 我们 期 望 强调 某 个 命令 或 者 查询 执行 成 功 ， 
但 是 其 又 没有 其 他 输出 信息 时 ) ， 否 则 我 们 也 将 省 略 
掉 “OK” 和 “Time taken:...” 这 些 行 信息 。 


通过 上 面 一 系列 连续 的 提示 符 ， 我 们 创建 了 一 个 简单 的 表 ， 表 名 
是 x， 包 含有 一 个 名 为 a 的 INT 〈\4 字 下 整 型 ) 类 型 字段 ， 然 后 对 这 个 表 
查询 了 2 次 ， 第 2 次 查询 是 为 了 显示 查询 语句 和 命令 ， 可 以 多 行 输入 。 
最 后 ， 我 们 删除 了 这 个 表 。 


如 果 用 户 使 用 默认 的 Derby 数 据 库 作 为 元 数据 存储 的 话 ， 那 么 这 时 
可 以 注意 到 在 用 户 当 前 工作 目录 下 新 出 现 了 一 个 名 为 metastore_db 的 目 
录 ， 这 个 日 录 是 在 启动 Hive 会 话 时 由 Derby 创 建 的 。 如 果 用 户 使 用 的 是 
之 前 所 介绍 的 虚拟 机 〈VM) ， 由 于 其 配置 可 能 不 同 ， 就 会 使 得 其 行为 
也 可 能 是 不 同 的 ， 这 个 我 们 后 面 会 做 讨论 。 


在 用 户 所 在 的 任意 工作 目录 下 都 创建 一 个 名 为 metastore_db 的 子 目 
杂 并 不 方便 ， 因 为 当 用 户 切 换 到 新 的 工作 目录 下 时 ，Derby 会 “起 记 * 在 


前 一 个 目录 下 的 元 数据 存储 信息 ! 在 下 一 证 中， 我们 将 讨论 如 何 为 元 
数据 存储 数据 库 配 置 一 个 永久 的 路 径 ， 同 时 还 会 做 其 他 一 些 调整 。 


2.5 配置 Hadoop 环 境 


下 面 我 们 稍微 深入 地 看 看 Hadoop 的 不 同 模式 并 讨论 和 Hive 相 天 的 
更 多 配置 问题 。 


如 采用 户 正 在 一 个 已 经 存在 的 集群 中 使 用 Hadoop 或 者 是 使 用 一 个 
虚拟 机 实例 的 话 ， 那 么 可 以 跳 过 本 市 。 如 果 你 是 一 个 开发 者 或 者 你 是 
自己 安装 Hadoop 和 Hive 的 ， 你 将 会 对 本 万 后 面 的 内 容 感 兴趣 。 不 过 ， 
我 们 不 会 提供 一 个 完整 的 讨论 。 参 考 记录 A“Hadoop: The Definitive 
Guide by Tom White 来 查看 不 同 模式 下 的 详细 配置 。 


2.5.1 ”本 地 模式 配置 

回想 下 ， 在 本 地 模式 中 ， 所 有 提 及 的 文件 都 存储 在 本 地 文件 系统 
而 不 是 分 布 式 文件 系统 中 。 其 中 没有 服务 在 运行 。 相 反 地 ， 用 户 的 job 
在 同一 个 JVM 实 例 中 执行 所 有 的 任务 。 


下 面 图 2-1 阐明 了 在 本 地 模式 下 执行 Hadoop job 的 过 程 。 


Word Count 程序 调用 过 程 


hadoop jar hadoop-examples.jar \ 
wordcount /home/edward/a \ 
/home/edward/out/ 


fs.default.name | mapred.jobtracker | 


JobTracker 和 
Tasklracker 
位 于 同一 进程 内 


本 地 文件 系统 


图 2-1 本 地 模式 下 的 Hadoop 


如 果 用 户 计划 经 党 使 用 本 地 模式 的 话 ， 那 么 非常 有 必要 为 Derby 
metastore_db 〈 这 里 Hive 存 储 了 用 户 的 表 等 元 数据 信息 ) 配置 一 个 标准 


的 位 置 。 


用 户 如 果 不 想 使 用 默认 的 路 径 ， 那 么 还 可 以 配置 一 个 不 同 的 目录 
来 存储 表 数 据 。 对 于 本 地 模式 ， 默 认 路 径 是 file:/Wuservhive/warehouse， 
对 于 其 他 模式 ， 默 认 存 储 路 径 是 


hdfs:/namenode_Sservevuservhive/warehouse。 


首先 ， 切 换 到 $HIVE_HOME/conf 目 录 下 。 好 奇 者 可 能 会 看 到 hive- 
default.xml.template 这 个 大 文件 。 这 个 文件 中 包含 了 Hive 提 供 的 配置 属 
性 以 及 默认 的 属性 值 。 这 些 属性 中 的 绝 大 多 数 ， 用 户 可 以 直接 名 上 略 不 
管 。 用 户 所 作 的 配置 修改 只 需要 在 hive-site. xml 文 件 中 进 井 行 束 可 以 了 。 
如 果 这 个 文件 不 存在 ， 那 么 用 户 需 要 自己 创建 一 个 


和 人 其 为 本 地 模式 执行 配置 了 几 个 属性 〈 见 
12-1) 。 


例 2-1 本 地 模式 下 的 hive-site，xml 配 置 文件 。 


<?Xm] version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration> 
<property> 
<name>hive.metastore.warehouse.dir</name> 
<value>/home/me/hive/warehouse</value> 
<description> 
Local or HDFS directory where Hive keeps table contents. 
</description> 
</property> 
<property> 
<name>hive.metastore.local</name> 
<value>true</value> 
<description> 
Use false if a production metastore server is used. 
</description> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value>jdbc:derby:;databaseName=/home/me/hive/metastore db;create=true</value> 
<description> 
The JDBC connection URL. 
</description> 
</property> 
</configuration> 


用 户 可 以 根据 需要 从 配置 文件 中 移 除 掉 某 些 不 需要 改变 的 属性 ， 
也 就 是 <property>...</property> 标 签 包 含 的 内 容 。 


正如 <description> 标 签 内 所 表明 的 ， 属 性 
hive.metastore.warehouse.dir 告 诉 Hive 在 本 地 文件 系统 中 使 用 哪个 路 径 来 
存储 Hive 表 中 的 数据 。 (这 个 值 会 追加 到 Hadoop 配 置 文件 中 所 配置 的 
属性 fs.default.name 的 值 ， 其 默认 为 file:WA。) 用 户 可 以 根据 需要 为 这 个 
属性 指定 任意 的 目录 路 径 。 


属性 hive.metastore.local 时 默认 值 丈 是 tue， 因 此 在 例 2-1 中 我 们 其 
实 是 没 必 要 将 这 个 属性 加 进去 的 。 放 在 例子 中 更 多 的 目的 是 提供 文档 
信息 。 这 个 属性 控制 着 是 否 连 接 到 一 个 远程 metastore server 或 者 是 否 作 
为 Hive Client JVM 的 构成 部 分 重新 打开 一 个 新 的 metastore server。 这 个 
设置 通常 是 设置 成 true 的 ， 然 后 使 用 JDBC 直 接 和 一 个 天 系 型 数据 库 通 
信 。 当 设置 为 false 时 ，Hive 将 会 通过 一 个 metastore server 来 进行 通信 ， 
这 个 我 们 将 在 第 16.8 节 “metastore 方 法 ”中 进行 讨论 。 


属性 javax.jdo.option.ConnectionURL 的 值 对 默认 的 值 进行 了 简单 的 
修改 。 这 个 属性 告诉 Hive 如 何 连 接 metastore server。 默认 情况 下 ， 它 使 
用 当前 的 工作 目录 作为 属性 值 字符 串 中 的 databaseName 部 分 。 如 例 2-1 
中 所 示 ， 我 们 使 用 databaseName=/home/me/hive/metastore_db 作 为 绝对 
路 径 ， 它 是 metastore_db 目 孙 所 在 的 路 径 。 这 样 设置 可 以 解决 每 次 开局 
一 个 新 的 Hive 会 话 时 ，Hive 上 自动 删除 工作 目录 下 的 metastore_d 员 目录 的 
°。 现 在， 我 们 不 管 在 哪个 目录 下 工作 都 可 以 访问 到 所 有 的 元 数 


2.5.2 分布 式 模式 和 伪 分 布 式 模式 配置 


在 分 布 式 模式 下 ， 集 群 中 会 局 动 多 个 服务 。JobTracker 管 理 着 job ， 
而 HDFS 则 由 NameNode 管 理 着 。 每 个 工作 节点 上 都 有 job task 在 执行 ， 
由 每 个 节点 上 的 TskTracker 服 务 管 理 着 ;而 且 每 个 和 点 上 还 存放 有 分 
和 式 文 件 系统 中 的 文件 数据 块 ， 由 每 个 和 点 上 的 DataNode 服 务 管理 


图 2-2 展 示 了 Hadoop 和 集群 的 一 个 典型 的 分 布 式 模式 配置 。 


jobhTmcker 
jt.domain.pyt 


NameNode 


Word Count 程 序 调用 过 程 
hadoop jar hadoop-examples.jar \ 
wordcount /home/edward/a \ 


2nndomainpvt 


分 布 式 Hadoop 


/home/edward/out/ 
三 domain.pvt =nn.domain .pt 


图 2-2 ”分 布 式 模式 下 的 Hadoop 


我 们 约定 对 于 集群 的 内 外 网 ， 使 用 *.domain.pvt 作 为 我 们 的 DNS 命 
名 规范 。 


访 分 页 起 栓 式 也 几乎 症 相同 的 ， 事 实 上 它 束 是 一 个 单 让 扩 的 集 


我 们 假定 用 户 的 管理 员 已 经 配置 好 了 Hadoop， 包 括 分 布 式 文件 系 
统 (例如 ，HDFS， 或 者 请 参考 附录 AHadoop: The DefinitiveGuide by 
Tom White ) 。 因 此 ， 我 们 将 关注 其 与 Hive 所 要 求 的 不 同 的 配置 过 程 。 


用 户 可 能 需要 配置 的 一 个 Hive 属 性 是 表 存 储 所 位 于 的 顶级 文件 目 
东 ， 其 由 属性 hive.metastore.warehouse.dir 指 定 ， 在 第 2.5.1 廊 “本 地 模式 
配置 ?中 也 有 进行 讨论 。 


Apache Hadoop 和 MapR 分 支 中 这 个 属性 的 默认 值 
是 /user/hive/warehouse， 当 Hadoop 配 置 的 是 分 布 式 模式 或 者 伪 分 布 式 模 
式 时 ， 这 个 路 径 被 认为 是 分 布 式 文件 系统 中 的 路 径 。 对 于 Amazon 弹 性 
MapReduce 系 统 (EMR) ， 当 使 用 Hivev0.M.N 版 本 时 ， 这 个 属性 的 默 
认 值 是 /mnt/hive_0M_N/warehouse (例如 ，/mnt/hive_08_1/ 
warehouse) 。 


为 这 个 属性 指定 不 同 的 值 可 以 允许 每 个 用 户 定 义 其 目 己 的 数据 仓 
库 目 录 ， 这 样 束 可 以 避免 影响 其 他 系统 用 户 。 因 此 ， 用 户 可 能 需要 使 
用 如 下 语句 来 为 其 目 己 指定 数据 仓库 目录 : 


如 采 每 次 启动 Hive CLI 或 者 在 每 个 Hive 脚 本 前 都 指定 这 行 语句 ， 那 
么 显得 过 于 几 长 。 当 然 ， 也 更 容易 会 起 记 设 置 这 个 属性 值 。 因 此 ， 最 
好 将 和 这 个 命令 类 似 的 所 有 命令 放置 在 93HOME/.hiverc 文 件 中 ， 每 一 次 
启动 Hive 都 会 执行 这 个 文件 。 参 考 第 2.7.5 广 “hiverc 文 件 ” 获 得 更 详细 信 
忌 o 


由 此 处 开始 我 们 将 假定 值 是 /user/hive/warehouse 。 


2.5.3 ”使 用 JDBC 连 接 元 数据 


Hive 所 需要 的 组 件 中 只 有 一 个 外 部 组 件 是 Hadoop 没 有 的 ， 那 就 是 
metastore (元 数据 存 迄 ) 组 件 。 元 数据 存储 中 存储 了 如 表 的 模式 和 分 
区 信息 等 元 数据 信息 。 用 户 在 执行 如 create table x... 或 者 alter table y... 等 
命令 时 会 指定 这 些 信 息 。 因 为 多 用 户 和 系统 可 能 需要 并 发 访问 元 数据 
存储 ， 所 以 默认 的 内 置 数据 库 并 不 适用 于 生产 环境 。 


-a 

a | 

ts | SS = 一 
| 六 提示 


如 膝 用 户 使 用 的 是 和 单个 节点 上 的 仿 分 布 趟 模式 ， 那 么 用 户 可 
能 会 发 现 ， 为 元 数据 仓储 设置 一 个 完整 的 关系 型 数据 库 并 没 多 大 
用 处 ， 反 而 ， 用 户 可 能 希望 继续 使 用 默认 的 Derby 进 行 元 数据 存 
储 ， 但 是 可 以 为 其 设置 一 个 中 央 位 置 来 储存 数据 ， 这 个 在 第 2.5.1 
广 “ 本 地 模式 配置 ”中 已 经 讨论 过 了 。 


任何 一 个 适用 JDBC 进 行 连接 的 数据 库 部 可 用 作 元 数据 存储 。 在 实 
肌 中 大 多 数 的 Hiv 户 靖 人 使 用 MySQL。 我 们 也 将 讨论 如 何 使 用 
MySQL 来 进行 元 数据 存储 。 执 行 过 程 对 于 其 他 适用 于 JDBC 连 接 的 数据 
库 都 是 适用 的 。 


本 3 
a | 
We 四 

~ 


像 表 的 模式 信息 、 分 区 信 忆 过 这 旦 必须 用 起 狼 据 ， 其 售 忆 量 
是 人 小， 通 党 比 丰 储 在 Hive 中 的 妆 据 的 最 要 的 网 因此 二 上 用 
户 其 实 无 需 为 元 数据 存储 提供 一 个 强劲 的 专用 数据 库 服务 器 。 不 
下 个人 人 是 (epOE) 所 以 吕 天 建议 用 疡 使用 对 
于 其 他 关系 型 数据 库 实 例 同样 适用 的 标准 技术 来 对 这 个 数据 库 进 
行 见 余 存储 和 数据 备份 。 这 里 我 们 不 会 探讨 这 些 技 术 。 


对 于 MySQL 配 置 ， 我 们 需要 知道 指定 服务 运行 在 哪个 服务 右 和 端 
口 。 我 们 将 假定 是 在 db1.mydomain.pvt 服 务 需 的 3306 端 口上 ， 这 个 端口 
也 是 标准 的 MYSQL 端口 最后， 我 们 假定 存储 数据 库 名 为 hive db。 我 
们 在 例 2-2 中 定义 了 这 些 属 性 。 


例 2-2 hive-site.xml 中 的 元 数据 存储 数据 库 配 置 。 


<?Xm] version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration> 
<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value>jdbc:mysql://db1i.mydomain.pvt/hive_db? 
createDatabaseIfNotExist=true</value> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 
</property> 
<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>database_user</value> 
</property> 
<property> 
<name>javax.jdo.option.Connectionpassword</name> 
<value>database_pass</value> 
</property> 
</configuration> 


用 户 可 能 已 经 注意 到 ConnectionUREL 属 性 值 前 缀 是 jdbc:mysql。 


为 了 使 Hive 能 够 连接 上 MySQL， 我 们 需要 将 JDBC 驱 动 放 置 在 类 路 
径 下 。MySQL JDBC 了 驱动 (Jconnector) 可 以 从 如 下 网 址 下 载 : 
http:/www.mysql.com/downloads/connector/j/。 这 个 驱动 可 以 放置 在 Hive 
的 库 路 径 下 ， 也 就 是 $HIVE_HOMEJ/ib 目 录 下 。 有 些 团队 会 将 所 有 这 些 
支持 类 的 库 放 置 在 Hadoop 的 库 目 录 下 。 


驱动 和 配置 设置 正确 后 ，Hive 束 会 将 元 数据 信息 存储 到 MySQL 


O 〇 


2.6 ”Hive 命 令 


$HIVE_HOME/bin/hive 这 个 shell 命 令 (后 面 我 们 省 略称 为 hive) 是 
通 向 包括 从 令 行 囚 历 也 就 是 CLI 等 Hive 服 务 的 通道 。 


我 们 假定 用 户 已 经 将 $HIVE_HOME/bin 加 入 到 环境 变量 PATH 中 
了 ， 则 用 户 只 需要 在 shell 提 示 符 中 输入 hive， 就 可 以 使 用 户 的 shell 环 境 
(例如 bash 环 境 ) 找到 这 个 命令 。 
命令 选项 


如 果 用 户 执行 下 面 的 命令 ， 那 么 可 以 查看 到 hive 命 令 的 一 个 简明 说 
明 的 选项 列表 。 下 面 是 Hive v0.8.* 和 Hive v0.9.* 系 列 版 本 的 输出 : 


$ bin/hive --help 
Usage ./hive <parameters> --service serviceName <service parameters> 
Service List: cli help hiveserver hwi jar lineage metastore rcfilecat 
Parameters parsed: 

--auxpath : Auxiliary jars 

--config : Hive configuration directory 

--Service : Starts Specific service/component. cli is default 


Parameters used: 
HADOOP_HOME : Hadoop install directory 
HIVE_OPT : Hive options 
For help on a particular service: 
./hive --service serviceName --help 
Debug help: ./hive --debug --help 


需要 注意 Service List 后 面 的 内 容 。 这 里 提供 了 几 个 服务 ， 包 括 我 们 
绝 大 多 数 时 间 将 要 使 用 的 CLI。 用 户 可 以 通过 --service name 服 务 名 称 来 
局 用 某 个 服务 ， 尽 管 其 中 有 几 个 服务 也 是 有 快捷 局 动 方式 的 。 


表 2-2 中 描述 了 最 有 用 的 服务 。 


表 2-2 Hive 服务 


oi A 用 户 定义 表 ， 执行 查询 等 。 如 果 没 有 指定 其 他 服务 ， 这 个 是 默 
而 | 认 的 服务 。 人 参考 第 2.7 节 “命令 行 界面 ” 


ee 监听 来 自 于 其 他 进程 的 Thrift 韦 接 的 一 个 守护 
是 一 个 可 以 执行 查询 语句 和 其 他 命令 的 简单 的 web 界面， 这 样 
可 以 不 用 登录 到 集群 中 的 某 台 机 器 上 使 用 CLI 来 进行 查询 


hadoop jar 命 令 的 一 个 扩展 ， 这 样 可 以 执行 需要 Hive 环 境 的 应 用 


启动 一 个 扩展 的 Hive 元 数据 服务 ， 可 以 供 多 客户 端 
ee 第 2.5.3 入 “使 用 JDBC 连 接 元 数据 ”) 
| 0 (参考 第 15.3.2 节 “RCFile”) 文件 内 

容 的 工具 


--auxpath 选 项 允许 用 户 指定 一 个 以 冒号 分 割 的 “附属 的 "Java 包 
WUAR) ， 这 些 文件 中 包含 有 用 户 可 能 需要 的 自 定 义 扩展 等 。 


--config 文件 目录 这 个 命令 允许 用 户 履 盖 $HIVE_HOME/conf 中 默 
认 的 属性 配置 ， 而 指向 一 个 新 的 配置 文件 目录 。 


2.7 命令 行 界面 


命令 行 界面 ， 也 就 是 CLI， 是 和 Hive 交 互 的 最 常用 的 方式 。 使 用 
CLI， 用 户 可 以 创建 表 ， 检 查 模 式 以 及 查询 表 ， 等 等 。 


E 


W 


2.7.1 ”CLI 选项 


下 面 这 个 命令 显示 了 CLI 所 提供 的 选项 列表 。 这 里 显示 的 是 Hive 
v0.8.* 和 Hive v0.9.* 版 本 的 输出 : 


$ hive --help --service cili 
usage: hive 
-d,--define <key=value> Variable substitution to apply to hive 
commands. e.g. -d A=B or --define A=B 
-e <quoted-query-string> SQL from command line 
-f <filename> SQL from files 
-H,--help Print help information 
-h <hostname> connecting to Hive Server on remote host 
--hiveconf <property=value> Use value for given property 
--hivevar <key=value> Variable substitution to apply to hive 
commands. e.g. --hivevar A=B 
-i <filename> Initialization SQL file 
-p <port> connecting to Hive Server on port number 
-S,--silent Silent mode in interactive shell 
-V, --Verbose Verbose mode (echo executed SQL to the 
console) 


这 个 命令 的 一 个 简化 版 表示 方式 是 hive -h。 然 而 从 技术 上 来 说 并 
不 文 持 这 个 选项 。 这 个 命令 会 输出 帮助 信息 ， 同 时 还 输出 一 条 提示 信 
轧 提 示 “ 选 项 h 缺 少 参 数 ”。 

对 于 Hive v0.7.* 版 本 ， 不 文 持 -4、--hivevar 和 -p 选 项 。 

下 面 我 们 来 更 详细 地 探讨 这 些 选 项 。 
2.7.2 ”变量 和 属性 

--define key=value 实 际 上 和 --hivevar key=value 是 等 价 的 。 二 者 都 可 
以 让 用 户 在 命令 行 定义 用 户 目 定 义 变 量 以 便 在 Hive 脚 本 中 引用 ， 来 满 
同情 况 的 执行 。 这 个 功能 只 有 Hive v0.8.0 版 本 和 之 后 的 版 本 才 文 
二 oo 

当 用 户 使 用 这 个 功能 时 ，Hive 会 将 这 些 键 - 值 对 放 到 hivevar 命 名 空 
间 ， 这 样 可 以 和 其 他 3 种 内 置 命名 空间 〈 也 就 是 hiveconf、system 和 


env) ， 进 行 区 分 。 
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伙 熏 或 者 属 任 是 在 不 同 的 上 下 文中 使 用 的 术语 ， 但 是 在 大 多 
数 情况 下 它们 的 功能 古 相 同 的 。 


表 2-3 摘 述 了 命名 空间 选项 
表 2-3 ”Hive 中 变量 和 属性 命名 空间 


户 自 定义 变 


system Java 定 义 的 配 
env Shell 环 境 (例如 bash) 定义 的 环境 变 


Hive 变 量 内 部 是 以 Java 字 符 串 的 方式 存储 的 。 用 户 可 以 在 查询 中 引 
用 变量 。Hive 会 匈 使 用 变量 值 营 换 掉 香 询 的 变量 引用 ， 然 后 才 会 将 查 


询 语句 提交 给 查询 处 理 器 。 


在 CLI 中 ， 可 以 使 用 SET 命令 显示 或 者 修改 变量 值 。 例 如 ， 下 面 这 
个 会 话 先 显示 一 个 变量 的 值 ， 然后 再 显示 env 命 名 空 zs 间 中 定义 的 所 有 变 

量 ! 为 了 更 清晰 地 表现 ， 我 们 省 略 控 了 这 个 Hive 会 话 中 的 一 些 输出 信 
息 ， 币 且 在 每 行 命令 之 间 人 为 地 增加 了 一 个 空白 行 


$ hive 
hive>set env:HOME ， 
env:HOME=/home/thisuser 


hive>set ， 

非常 多 的 输出 信息 ， 而 包含 有 下 面 这 些 变量 的 : 
hive. stats.retries.wait=3000 
env :TERM=xterm 
system:user.timezone=America/New_York 


hive>set -v; 


， 更 多 的 输 


如 果 不 加 -v 标 记 ，set 命 令 会 打印 出 命名 空间 hivevar， hiveconf， 
system 和 env 中 所 有 的 变量 。 使 用 -v 标 记 ， 则 还 会 打印 Hadoop 中 所 定义 
的 所 有 属性 ， 例 如 控制 HDFS 和 MapReduce 的 属性 。 


set 命 令 还 可 用 本 给 变量 赋 新 的 值 。 我 们 特别 看 下 hivevar 命 名 空间 
以 及 如 何 通 过 命令 行 定 义 一 个 变量 : 


$ hive --define foo=bar 
hive> set foo; 
foo=bar; 


hive> set hivevar:foo; 
hivevar :foo=bar; 


hive> set hivevar:foo=bar2; 


hive> set foo; 
foo=bar2 


hive> set hivevar:foo; 
hivevar :foo=bar2 


我 们 可 以 看 到 ， 前 缀 hivevar: 是 可 选 的 。--hivevar 标 记 和 --define 标 
记 是 相同 的 。 


在 CLI 中 查询 语句 中 的 变量 引用 会 先 被 替换 掉 然 后 才 会 提交 给 查询 
处 理 器 。 思 考 如 下 这 个 CLI 会 话 (在 v0.8.* 版 本 中 使 用 ) : 


hive> create table toss1(I int, ${hivevar:foo} string); 
hive> describe toss1， 

i int 

bar2 string 


hive> create table toss2(i2 int, ${foo} string); 
hive> describe toss2 ， 

i2 int 

bar2 string 


hive> drop table tossi1; 
hive> drop table toss2; 


我 们 来 看 看 --hiveconf 选 项 ，Hive v0.7.* 版 本 支持 这 个 功能 ， 其 用 于 
配置 Hive 行 为 的 所 有 属性 。 我 们 用 它 来 指定 Hive v0.8.0 版 本 中 增加 的 
hive.cli.print.current.db 属 性 。 开 启 这 个 属性 可 以 在 CLI 提 示 符 前 打印 出 
当前 所 在 的 数据 库 名 (第 4.1 节 “Hive 中 的 数据 库 ”* 中 有 关于 Hive 数 据 库 
的 更 多 信息 ) ， 默 认 的 数据 库 名 为 default。 这 个 属性 的 默认 值 是 false 。 


$ hive --hiveconf hive.cli.print,.current.db=true 
hive (default)> set hive.cli.print.current.db,; 
hive.cli.print.current.db=true 


hive (default)> set hiveconf :hive,.cli.print.current .db， 
hiveconf :hive.cli.print.current.db=true 


hive (default)> set hiveconf:hive.cli.print.current.db=false,; 
hive> set hiveconf:hive.cli,.print.current.db=true,; 


hive (default)> ... 


我 们 甚至 可 以 增加 新 的 hiveconf 属 性 ， 这 个 功能 只 有 Hive v0.8.0 版 
本 前 的 版 本 才 支 持 : 


$ hive --hiveconf y=5 
hive> set y; 
y=5 


hive> CREATE TABLE whatsit(i int); 


hive> ..， 装载 数据 到 表 whatsit 中 ... 


hive> SELECT * FROM whatsit WHERE i = ${hiveconf:y}; 


我 们 还 有 必要 了 解 一 下 system 命 名 空间 ， Java 系 统 属 性 对 这 个 命名 
有 可 该 可 写 权 利 ;， 而 env 命 名 空间 ， 对 于 环境 变量 只 提供 可 
读 : 


hive> set system:user.name; 
system:user.name=myusername 


hive> set system:user.name=yourusername; 


hive> set system:user.name; 
system:user.name=yourusername 


hive> set env:HOME,; 
env:HOME=/home/yourusername 


hive> set env:HOME,; 
env:* variables can not be set. 


和 hivevar 变 量 不 同 ， 用 户 必须 使 用 system: 或 者 env: 前 绥 来 指定 系统 
属性 和 环境 变量 。 


env 命 名 空间 可 作为 向 Hive 传 递 变 量 的 一 个 可 选 的 方式 ， 特 别 是 对 
于 Hive v0.7.* 版 本 。 考 虚 如 下 这 个 例子 : 


$ YEAR=2012 hive -e "SELECT * FROM mytable WHERE year = $f{env:YEAR}",; 


查询 处 理 需 会 在 WHERE 子 句 中 查看 到 实际 的 变量 值 2012。 
一 一 
TS 营 告 


如 果 你 现在 使 用 的 是 Hive v0.7.* 版 本 ， 那 么 这 本 书 中 一 些 使 用 
参数 和 变量 的 例子 和 写 的 可 能 并 不 符合 。 如 琳 有 这 种 情况 ， 那 么 
将 变量 蕉 换 成 具体 的 值 即 可 。 


十 
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Hive 中 所 有 的 内 置 属性 都 在 
$HIVE_HOME/conf/hivedefault.xml.template 中 列举 出 来 了 ， 这 是 
个 “ 样 例 * 配 置 文件 。 配 置 文件 中 还 说 明了 这 些 属性 的 默认 值 。 
2.7.3 ”Hive 中 “一 次 使 用 ”命令 

用 户 可 能 有 时 期 望 执 行 一 个 或 者 多 个 查询 (使 用 分 号 分 隔 ) ， 执 
行 结束 后 hive CLI 立 即 退 出 。Hive 提 供 了 这 样 的 功能 ， 因 为 CLI 可 以 接 
受 -e 命令 这 种 形式 。 如 果 表 mytable 具 有 一 个 字符 串 字 段 和 一 个 整 型 字 
段 ， 我 们 可 以 看 到 如 下 输出 : 


$ hive -e "SELECT * FROM mytable LIMIT 3"; 
OK 


name1 10 
name2 20 
name3 30 


Time taken: 4.955 seconds 
$ 


临时 应 急 时 可 以 使 用 这 个 功能 将 查询 结果 保存 到 一 个 文件 中 。 增 
加 -S 选 项 可 以 开启 静默 模式 ， 这 样 可 以 在 输出 结果 中 去 掉 “OK” 
人 
列子 -: 


$ hive -S -e "select * FROM mytable LIMIT 3" > /tmp/myquery 
$ cat /tmp/myquery 


name1 10 
name2 20 
name3 30 


需要 注意 的 是 ，Hive 会 将 输出 写 到 灰 肉 锣 录 中 。 上 面 例子 中 的 shell 
命令 将 输出 重 定 同 到 本 地 文件 系统 中 ， 而 不 是 HDFS 中 。 


最 后 ， 当 用 户 不 能 完整 记 清 楚 某 个 属性 名 时 ， 可 以 使 用 下 面 这 个 
非常 有 用 的 技巧 来 模糊 获取 这 个 属性 名 而 无 需 深 动 set 命 令 的 输出 结果 
进行 查找 。 假 设 用 户 没 记 清 哪个 属性 指定 了 管理 表 的 “warehouse( 数 据 
仓库 )” 的 路 径 ， 通 过 如 下 命令 可 以 查看 到 : 


$ hive -S -e "set" | grep warehouse 
hive.metastore.warehouse.dir=/user/hive/warehouse 


hive.warehouse. subdir.inherit.perms=false 


这 是 第 一 种 情况 。 
2.7.4 ”从 文件 中 执行 Hive 查 询 

Hive 中 可 以 使 用 -f 文件 名 方式 执行 指定 文件 中 的 一 个 或 者 多 个 查 
询 语句 。 按 照 惯 例 ， 一 般 把 这 些 Hive 查 询 文件 保存 为 具有 .q 或 者 .hql 后 
级 名 的 文件 。 


在 Hive shell 中 用 户 可 以 使 用 SOURCE 命 令 来 执行 一 个 脚本 文件 。 
下 面 是 一 个 例子 : 


$ cat /path/to/file/withqueries.hql 
SELECT x.* FROM src x; 


$ hive 
hive> Source /path/to/file/withqueries.hqil; 


顺便 说 一 下 ， 如 琳 查 询 中 的 表 名 和 这 个 例子 并 不 相关 ， 我 们 有 了 时 
会 使 用 src (代表 “ 源 表 ”) 作为 表 名 。 这 个 约定 来 源 于 Hive 源 码 中 的 学 
元 凋 病 中 的 写法 。 它 会 在 所 有 测试 开始 前 先 创 建 一 个 名 为 src 的 表 。 


例如 ， 在 试用 某 个 内 荀 画 数 时 ， 通 常会 写 个 “但 询 ” 语 句 ， 然 后 往 
这 个 函数 中 传 入 参数 ， 如 下 面 这 个 例子 所 示 〈 这 个 例子 在 第 15.9 节 
《XPath 相关 的 函数 》 中 会 讲 到 ) : 


hive> SELECT xpath(\'<a><b id="foo">b1</b><b id="bar">b2</b></a>\',\'//@id\') 


> FROM src LIMIT 工 ; 
[foo", "bar] 


我 们 现在 不 必 关 心 xpath 的 细节 问题 ,但 是 需要 注意 ， 我 们 疝 xpath 
中 传递 了 2 个 字符 串 类 型 的 参数 ， 而 且 使 用 了 FROM src LIMIT 1 来 指定 
必须 要 有 的 FROM 子 句 ， 并 限制 了 输出 行 数 。src 代 表 一 个 已 经 创建 好 
的 或 者 虚拟 地 创建 了 的 名 为 src 的 表 : 


同时 必须 至 少 有 一 行 的 数据 在 源 表 里 面 : 


$ echo "one row" > /tmp/myfile 


$ hive -e "LOAD DATA LOCAL INPATH '/tmp/myfile' INTO TABLE src; 


2.7.5 ”hiverc 文 件 


我 们 最 后 将 要 讨论 的 CLI 选 项 是 -i 文件 名 。 这 个 选项 允许 用 户 指定 
一 个 文件 ， 当 CLI 局 动 时 ， 在 提示 符 出 现 前 会 先 执行 这 个 文件 。Hive 会 
自动 在 HOME 目 录 下 寻找 名 为 .hiverc 的 文件 ， 而 且 会 自动 执行 这 个 文件 
中 的 命令 《如 采 文 件 中 有 的 话 ) 


对 于 用 户 需要 频繁 执行 的 命令 ， 使 用 这 个 文件 是 非常 方便 的 。 例 
如 设置 系统 属性 (参考 第 2.7.2 节 “变量 和 属性 ”) ， 或 者 增加 对 于 
Hadoop 的 分 布 式 内 存 (在 第 15 章 将 会 有 介绍 ) 进行 自 定义 的 Hive 扩 展 
的 Java 包 (JAR 文件) 。 


下 面 的 例子 显示 的 是 一 个 典型 的 $HOME/.hiverc 文 件 中 的 内 容 : 


ADD JAR /path/to/custom_ hive extensions.jar; 
set hive.cli.print.current.db=true; 


set hive.exec,.mode.1local.auto=true; 


上 面 例子 第 1 行 表示 同 Hadoop 分 布 式 内 存 中 增加 一 个 JAR 文 件 。 第 
2 行 表示 修改 CLI 提 示 符 前 显示 当前 所 在 的 工作 数据 库 ， 这 个 我 们 在 前 


面 第 2.7.2 太 “变量 和 属性 ”中 讲述 过 了 。 最 后 1 行 表示 “或 励 ”"Hive 如 果 可 
以 使 用 本 地 模式 执行 (即使 当 Hadoop 是 以 分 布 式 模式 或 仿 分 布 式 模式 
站 的 话 就 在 本 地 执行 ， 这 样 可 以 加 快 小 数据 集 的 数据 查询 速 


[ SR 


ES gt 
一 个 比较 容易 犯 的 错误 就 是 态 记 在 每 行 的 结尾 加 逗号 。 如 果 
用 户 犯 了 这 个 错误 ， 那 么 这 个 属性 将 包含 后 面 几 行 所 有 的 文字 ， 
直到 发 现下 一 个 逗号 。 
2.7.6 ”使 用 Hive CLI 的 更 多 介绍 
CLI 支 持 其 他 一 些 有 用 的 功能 。 
自动 补 全 功能 
如 果 用 户 在 输入 的 过 程 中 殴 击 Tab 制 表 键 ， 那 么 CLI 会 自动 补 全 可 
能 的 关键 字 或 者 函数 名 。 例 如 ， 如 果 用 户 输 入 SELE 人 然后 按 Tab 键 ，CLI 
将 自动 补 全 这 个 词 为 SELECT。 
如 果 用 户 在 提示 符 后 面 直接 敲 击 Tab 键 ， 那 么 用 户 会 看 到 如 下 回 
复 : 


hive> 
Display all 407 possibilities? (y or n) 


| 


/ 
"ES gt 

当 向 CLI 中 输入 语句 时 ， 如 果菜 些 行 是 以 Tab 键 开头 的 话 ， 就 
会 产生 一 不 常见 的 今 人 困惑 的 错误 。 用户 这 时 会 看 到 一 个 "是否 久 
未 所 有 可 能 的 情况 * 的 提示 、 而 且 输 入 流 后 曾 的 字符 会 被 认为 是 对 
这 个 提示 的 回复 ， 也 关 此 会 导致 命令 执行 类 败 。 


2.7.7 ”查看 操作 命令 历史 


用 户 可 以 使 用 上 下 策 头 来 浚 动 查 看 之 前 的 命令 。 事 实 上 ， 每 一 行 
之 前 的 输入 都 是 单独 显示 的 ，CLI 不 会 把 多 行 命令 和 查询 作为 一 个 单独 
的 历史 条 目 。Hive 会 将 最 近 的 100，00 行 命令 记录 到 文件 
$HOME/hivehistory 中 。 


如 采用 户 想 再 次 执行 之 前 执行 过 的 某 条 命令 ， 只 需要 将 光标 滚动 
到 那 条 记录 然后 按 Enter 键 束 可 以 了 。 如 采用 户 需 要 修改 这 行 记录 后 再 
执行 ， 那么 需要 使 用 左右 方向 键 将 光标 移动 到 需要 修改 的 地 方 然 后 重 
新 编辑 修改 就 可 以 了 。 修 改 后 用 户 直 接 融 击 Enter 键 束 可 以 提交 这 条 命 
令 而 无 需 切换 到 命令 尾 。 
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大 多 数 的 导航 按键 使 用 的 Contrl+ 字 母 的 命令 和 bash shell 中 是 
相同 的 (例如 ，Control+A 代表 光标 移 到 到 行 首 ，Control+B 代表 
光标 移动 到 行 尾 ) 。 然 而 ， 类 似 的 “元 操作 ”Option 或 者 Escape 刍 就 
不 起 作用 了 〈 例 如 ，Option+EF 一 次 向 前 移动 一 个 单词 这 样 的 命 
令 ) 。 相 似 地 ，Delete 删 除 键 会 删除 光标 左边 的 字符 ， 而 Forward 
Delete 回 格 键 不 会 删除 掉 光 标 当 前 所 在 的 字符 。 


2.7.8 ”执行 shell 命 令 


用 户 不 需要 退出 hive CLI 就 可 以 执行 简单 的 bash shell 命 令 。 只 要 在 
命令 前 加 上 ! 并 且 以 分 号 (;) 结尾 就 可 以 : 


Hive CLI 中 不 能 使 用 需要 用 户 进 行 输入 的 交互 式 命令 ， 而 且 不 支持 
shell 的 “管道 ”功能 和 文件 名 的 目 动 补 全 功能 。 例 如 ，! ls *.hql; 这 个 命令 


ee 而 不 是 表示 显示 以 .hnq! 结 尾 的 所 有 


2.7.9 在 Hive 内 使 用 Hadoop 的 dfs 命 令 


用 户 可 以 在 Hive CLI 中 执行 Hadoop 的 dfs .， 命令 ， 只 需要 将 hadoop 
命令 中 的 关键 字 hadoop 去 掉 ， 然 后 以 分 号 结尾 就 可 以 了 : 


hive> dfs -ls /，) 
Found 3 items 
drwxr-xr-x - root supergroup © 2011-08-17 16:27 /etl 


drwxr -xr-x - edward supergroup 9 2012-01-18 15:51 /flag 
drwxrwxr -x - hadoop supergroup 9 2010-02-03 17:50 /users 


这 种 使 用 hadoop 命 命令 的 方式 实际 上 比 与 其 等 价 的 在 bash shell 中 执 
行 的 hadoop dfs... 命令 要 更 高 效 。 因 为 后 者 每 次 都 会 启动 一 个 新 的 JVM 
实例 ， 而 Hive 会 在 同一 个 进程 中 执行 这 些 命 令 。 


用 户 可 以 通过 如 下 命令 查看 dfs 所 提供 的 所 有 功能 选项 列表 : 


hive> dfs -help; 


用 户 还 可 以 登 孙 网 址 
http://hadoop.apache.org/common/docs/r0.20.205. 0/file _System_ shell.html 
或 者 是 查看 用 户 所 使 用 的 Hadoop 发 行 版 的 文档 来 获取 这 些 命 令 的 说 


明 。 
2.7.10 ”Hive 脚 本 中 如 何 进行 注释 


, i Vv0.8.0 版 本 ， 用 户 可 以 使 用 以 -- 开 头 的 字符 串 来 表示 注 
释 ， 例 如 : 


-- Copyright (c) 2012 Megacorp, LLC. 
-- This is the best Hive Script evar!! 


SELECT * FROM massive_ table,; 


一 
TS gt 


CLI 是 不 会 解析 这 些 注释 行 的 。 因此 如 采用 户 在 CLI 中 痢 由 这 
些 注释 语句 ， 那 么 将 会 有 错误 信息 。 他 们 只 能 放 在 脚本 中 通过 hive 
-f script_name 的 方式 执行 , 


2.7.11 显示 字段 名 称 


作为 最 后 一 个 例子 ， 我 们 把 学 到 的 很 多 东西 都 放 在 了 一 起 。 我 们 
可 以 让 CLI 打 印 出 字段 名 称 (这 个 功能 上 默认 是 关闭 的 ) 。 我 们 可 以 通过 
设置 hiveconf 配 置 项 hive.cli.print.header 为 true 来 开启 这 个 功能 : 


hive> set hive.cli.print,header=true' 


hive> SELECT * FROM system logs LIMIT 3; 


tstamp severity server message 

1335667117.337715 ERROR server1 Hard drive hd1 is 90% full! 
1335667117.338012 WARN server1 Slow response from server2., 
1335667117.339234 WARN server2 Uh, Dude, I'm kinda busy right now... 


如 果 用 户 希 望 总 是 看 到 字段 名 称 ， 那 么 只 需要 将 第 1 行 添 加 到 
$HOME/hiverc 文 件 中 即 可 。 


[1jhttp:/vmware.com。 


[2jhttps://www.virtualpox.org/。 


[3] 然 而 ， 一 些 广 商 目前 开始 文 择 Hadoop 在 其 他 操作 系统 中 使 用 。 
Hadoop 目 前 已 经 在 生产 中 应 用 于 各 种 各 样 的 UNIX 操 作 系统 上 ， 其 在 
Mac OS X 中 作 开 发 用 时 效 朱 很 好 。 


[4] 这 些 是 写 这 本 书 时 所 提供 的 UREL 链 接 。 

[5] 至 少 这 个 是 Dean 的 Mac 电 脑 中 当前 的 配置 情况 。 这 个 差异 可 能 实际 
上 反映 了 一 个 事实 ， 即 : Mac OS X 中 Java 的 管理 工作 自 Java 1.7 版 本 开 
始 从 Apple 过 渡 到 了 Oracle。 


[6] 不 幸 的 是 ，dfs -ls 命令 仅 提供 “长 列表 "格式 。 没 有 像 Linux 系 统 中 ls 命 
令 显 示 的 那 种 简短 格式 。 


第 3 章 ”数据 类 型 和 文件 格式 


Hive 文 持 关 系 型 数据 库 中 的 大 多 数 基 本 数据 类 型 ， 同 时 也 支持 关 
系 型 数据 库 中 很 少 出 现 的 3 种 集合 数据 类 型 ， 下 面 我 们 将 简短 地 介绍 一 
下 这 样 做 的 原因 。 


其 中 一 个 需要 考虑 的 因素 就 是 这 些 数 据 类 型 是 如 何在 文本 文件 中 
进行 表示 的 ， 同 时 还 要 考虑 文本 存储 中 为 了 解决 各 种 性 能 问题 以 及 其 
他 问题 有 哪些 替代 方案 。 和 大 多 数 的 数据 库 相 比 ，Hive 具 有 一 个 独特 
的 功能 ， 那 束 是 其 对 于 数据 在 文件 中 的 编码 方式 具有 非常 大 的 灵活 
性 。 大 多 数 的 数据 库 对 数据 具有 完全 的 控制 ， 这 种 控制 既 包 括 对 数据 
存储 到 磁盘 的 过 程 的 控制 ， 也 包括 对 数据 生命 周期 的 控制 。Hive 将 这 
些 方 面 的 控制 权 转 交 给 用 户 ， 以 便 更 加 容易 地 使 用 各 种 各 样 的 工具 来 
管理 和 处 理 数据 。 


3.1 基本 数据 类 型 


Hive 支 持 多 种 不 同 长 度 的 整 型 和 浮 点 型 数据 类 型 ， 支 持 布尔 类 
型 ， 也 支持 无 长 度 限 制 的 字符 串 类 型 。Hive v0.8.0 版 本 中 增加 了 时 间 
戳 数 据 类 型 和 二 进 制 数组 数据 类 型 。 

表 3-1 列举 了 Hive 所 支持 的 基本 数据 类 型 。 


表 3-1 基本 数据 类 型 


数据 类 型 长 度 例子 


paso=} 


lbyte 有 符号 
整数 


TINYINT 


2byte 有 符号 
SMALINT 2 20 
we 


true 或 者 false 


精度 浮 点 数 |3.14159 
精度 浮 点 数 | 3.14159 


字符 序列 。 可 


4 | ‘now is the time’, “for all good men” 


1327882394 (Unix 新 纪元 秒 ) ， 

整数 ， 浮 点 数 1327882394.123456789 (Unix 新 双 
TIMESTAMP(V0.8.0+) | 或 者 字符 串 ”| 随 有 纳 秒 数 ) 和 '2012-02-03 

一 12:34:56.123456789' (JDBC 所 兼容 的 


java.sql.Timestamp 时 间 格 式 ) 


数组 请 看 后 面 的 讨论 


和 其 他 SQL 方言 一 样 ， 这 些 都 是 保留 字 。 


需要 注意 的 是 所 有 的 这 些 数据 类 型 都 是 对 Java 中 的 接口 的 实现 ， 
因此 这 些 类 型 的 具体 行为 细节 和 Java 中 对 应 的 类 型 是 完全 一 致 的 。 例 
如 ，STRING 类 型 实现 的 是 Java 中 的 String，FLOAT 实 现 的 是 Java 中 的 


float， 等 等 。 


在 其 他 SQL 方言 中 ， 通 常会 提供 限制 最 大 长 度 的 “字符 数组 ”( 也 
就 是 很 多 字符 串 ) 类 型 ， 但 需要 注意 的 是 Hive 中 不 文 持 这 种 数据 类 
型 。 关 系 型 数据 库 提供 这 个 功能 是 出 于 性 能 优化 的 考虑 。 因 为 定 长 的 
记录 更 容易 进行 建立 索引 ， 数 据 扫描 ， 等 等 。 在 Hive 所 处 的 “宽松 ”的 
世界 里 ， 不 一 定 拥有 数据 文件 但 必须 能 够 支持 使 用 不 同 的 文件 格式 ， 
Hive 根 据 不 同 字 段 则 的 分 隔 符 来 对 其 进行 判断 。 同 时 ，Hadoop 和 Hive 
-4 优化 磁盘 的 读 和 写 的 性 能 ， 而 限制 列 的 值 的 长 度 相 对 来 说 并 不 重 


狐 增 数据 类 型 TTMESTAMP 的 值 可 以 是 整数 ， 也 就 是 距离 Unix 狐 
纪元 时 间 (1970 年 1 月 1 日 ， 午 夜 12 点 ) 的 秒 数 ， 也 可 以 是 浮 点 数 ， 即 
距离 Unix 新 纪元 时 间 的 秒 数 ， 精 确 到 纳 秒 (小 数 点 后 保留 9 位 数 ) ; 还 
可 以 是 字符 串 ， 即 JDBC 所 约定 的 时 间 字 符 串 格式 ， 格 式 为 YYYY- 
MM-DD hh:mm:ss.fffffffff 。 


TIMESTAMPS 表 示 的 是 UTC 时 间 。Hive 本 壬 提供 了 不 同时 区 间 互 
相 转 换 的 内 置 印 数 ， 也 就 是 to_utc_timestamp 落 数 和 from_utc_timestamp 
函数 (详情 请 查看 第 13 章 内 容 ) 。 


BINARY 数 据 类 型 和 很 多 关系 型 数据 库 中 的 VARBINARY 数 据 类 
型 是 类 似 的 ， 但 其 和 BLOB 数 据 类 型 并 不 相同 。 因 为 BINARY 的 列 是 存 
储 在 记录 中 的 ， 而 BLOB 则 不 同 。BINARY 可 以 在 记录 中 包含 任意 字 
节 ， 这 样 可 以 防止 Hive 尝 试 将 其 作为 数字 ， 字 符 串 等 进行 解析 。 


需要 注意 的 是 如 果 用 户 的 目标 和 是 省 略 掉 每 行 记录 的 尾部 的 话 ， 那 
么 征 无 需 使 用 BINARY 数 据 类 型 的 。 如 采 一 个 表 的 表 结 构 指 定 的 是 3 
列 ， 而 实际 数据 文件 每 行 记录 包含 有 5 个 字段 的 话 ， 那 么 在 Hive 中 最 后 
2 列 数据 将 会 被 省 略 挥 。 


如 果 用 户 在 查询 中 将 一 个 foat 类 型 的 列 和 一 个 double 类 型 的 列 作 
对 比 或 者 将 一 种 整 型 类 型 的 值 和 另 一 种 整 型 类 型 的 值 做 对 比 ， 那 么 结 
果 将 会 怎么 样 呢 ? Hive 会 隐 式 地 将 类 型 转换 为 两 个 整 型 类 型 中 值 较 大 
的 那个 类 型 ， 也 就 是 会 将 FLOAT 类 型 转换 为 DOUBLE 类 型 ， 而 且 如 有 
必要 ， 也 会 将 任意 的 整 型 类 型 转换 为 DOUBLE 类 型 ， 因 此 事实 上 是 同 
类 型 之 间 的 比较 。 


如 有 果 用 户 希 望 将 一 个 字符 串 类 型 的 列 转 换 为 数值 呢 ? 这 种 情况 下 
用 户 可 以 显 式 地 将 一 种 数据 类 型 转换 为 其 他 一 种 数据 类 型 ， 后 面 会 有 


这 样 的 一 个 例子 ， 例 子 中 s 是 一 个 字符 串 类 型 列 ， 其 值 为 数值 : 


i 0 AS INT 征 关键 字 ， 因 此 使 用 小 写 也 是 可 以 


我 们 将 会 在 第 6.8 节 “类 型 转换 ?更 深入 地 讨论 数据 类 型 转换 。 


3.2 ”集合 数据 类 型 
Hive 中 的 列 支 持 使 用 struct，map 和 array 集 合 数据 类 型 。 需 要 注意 
的 是 表 3-2 中 语法 示例 实际 上 调用 的 是 内 置 函 数 。 
表 3-2 集合 数据 类 型 


Mstruct 或 者 “对 象 " 类 似 ， 都 可 以 通 

访问 元 素 内 容 。 例 如 ， 如 果 某 个 列 

型 是 STRUCT{first STRING， last struct('John', 'Doe') 
， 那 么 第 1 个 元 素 可 以 通过 字 诺 


MAP 是 一 组 键 - 值 对 元 组 集合 ， 使 用 数组 表示 
法 (例如 [‘key’]) 可 以 访问 元 素 。 例 如 ， 如 采 本 
某 个 列 的 数据 类 型 是 MAP， 其 中 键 - 》 值 对 上 first IOIN as 
是 'firsb->*Johm 和 "ast->"Doe:， 那 么 可 以 通过 | ?9 

字段 名 [‘last"] 获 取 最 后 1 个 元 素 


4 有 相同 类 型 和 名 称 的 变量 的 集 
尔 为 数组 的 元 素 ， 每 个 数组 元 素 

， 编 号 从 零 开 始 。 例 如 ， 数 组 值 
:，“Doe'"]， 那 么 第 2 个 元 素 可 以 通过 数 
组 名 [1] 进 行 引 用 


Array('John', 'Doe') 


和 基本 数据 类 型 一 样 ， 这 些 类 型 的 名 称 同样 是 保留 字 。 


大 多 数 的 关系 型 数据 库 并 不 文 持 这 些 集合 数据 类 型 ， 因 为 使 用 它 
们 会 趋同 于 破坏 标准 格式 。 例 如 ， 在 传统 数据 模型 中 ，structs 可 能 需 
要 由 多 个 不 同 的 表 拼 小 而 成 ， 表 间 需 要 适当 地 使 用 外 链 来 进行 连接 。 


破坏 标准 格式 所 市 来 的 一 个 实际 问题 是 会 增 大 数据 见 余 的 风险 ， 
进而 导致 消耗 不 必要 的 磁 到 空间， 还 有 可 能 造成 数据 不 一 致 ， 因 为 当 
数据 发 生 改 变 时 元 余 的 拷贝 数据 可 能 无 法 进行 相应 的 同步 。 


然而 ， 在 大 数据 系统 中 ， 不 章 循 标准 格式 的 一 个 好 处 殉 是 可 以 提 
供 更 高 吞吐 量 的 数据 。 当 处 理 的 数据 的 数量 级 是 T 或 者 P 时 ， 以 最 少 
的 “ 汰 部 寻 址 ”来 从 磁盘 上 扫 搬 数据 是 非常 必要 的 。 按 数据 集 进行 封 洲 
的 话 可 以 通过 减少 寻 址 次 数 来 提供 查询 的 速度 。 而 如 来 根据 外 键 关系 
— 话 则 需要 进行 磁盘 间 的 寻 址 操作 ， 这 样 会 有 非 闻 高 的 性 能 请 


4 a 


A 
te 


”提示 


Hive 中 并 没有 键 的 概念 。 但 是 ， 用 户 可 以 对 表 建 立 索 引 ， 这 
些 我 们 在 第 7 章 将 会 进行 介绍 。 


这 里 有 一 个 用 于 演示 如 何 使 用 这 些 数据 类 型 的 表 结 构 声 明 语 人 名， 
这 是 一 张 虚构 的 人 力 资 源 应 用 程序 中 的 员工 表 : 


CREATE TABLE employees ( 
name STRING, 
salary FLOAT, 


subordinates ARRAY<STRING>, 
deductions MAP<STRING, FLOAT>, 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>); 


其 中 ，name 是 一 个 简单 的 字符 串 ;， 对 于 大 多 数 雇 员 来 说 ，salary 

(薪水 ) 使 用 float 浮 点 数 类 型 来 表示 就 已 经 足够 了 ; subordinates (下 
属 员 工 ) 列表 是 一 个 字符 串 值 数组 。 在 该 数组 中 ， 我 们 可 以 认为 name 
是 “主键 >， 因 此 subordinates 中 的 每 一 个 元 素 都 将 会 引用 这 张 表 中 的 另 
一 条 记录 。 对 于 没有 下 属 的 雇员 ， 这 个 字段 对 应 的 值 就 是 一 个 空 的 数 
组 。 在 传统 的 模型 中 ， 将 会 以 另外 一 种 方式 来 表示 这 种 关系 ， 世 就 是 
雇员 和 雇员 的 经 理 这 种 对 应 关系。 这 里 我 们 并 非 强调 我 们 的 模型 对 于 
Hive 来 说 是 最 好 的 ， 而 只 是 为 了 举例 展示 如 何 使 用 数组 。 


字段 deductions 是 一 个 由 键 - 值 对 构成 的 map， 其 记录 了 每 一 次 的 扣 
除 额 ， 这 些 钱 将 会 在 发 薪水 的 时 候 从 员工 工资 中 扣除 挥 。map 中 的 键 
是 扣除 金额 项 目的 名 称 〈 例 如 , “国家 税收 >) ， 而 且 键 可 以 是 一 个 百 
分 比值 ， 也 可 以 完全 就 是 一 个 数值 。 在 传统 数据 模型 中 ， 这 个 扣除 额 
项 目的 名 称 (这 里 也 就 是 map 的 键 ) 可 能 存在 于 不 同 的 表 中 。 这 些 表 
在 存放 特定 扣除 额 值 的 同时 ， 还 有 一 个 外 键 指向 对 应 的 雇员 记录 。 


最 后 ， 每 名 雇员 的 家 庭 住址 使 用 struct 数 据 类 型 存储 ， 其 中 的 每 个 
域 都 被 作 了 命名 ， 并 且 具 有 一 个 特定 的 类 型 。 


请 注意 后 面 是 如 何 使 用 Java 语 法 惯例 来 表示 集合 数据 类 型 的 。 例 
如 ，MAP<STRING，FLOAT> 表 示 map 中 的 每 个 键 都 是 STRING 数 据 类 
型 的 ， 而 每 个 值 都 是 FLOAT 数 据 类 型 的 。 对 于 ARRAY<STRING>， 其 
中 的 每 个 条 目 都 是 STRING 类 型 的 。STRUCT 可 以 混合 多 种 不 同 的 数据 
关 型 ， 但 是 STRUCT 中 一 旦 声明 好 结构 ， 那 么 其 位 置 就 不 可 以 再 改 


艺人 


3.3 ”文本 文件 数据 编码 


下 面 我 们 一 起 来 研究 文件 格式 ， 首 先 举 个 最 简单 的 例子 ， 也 就 是 
文本 格式 文件 。 受 无 疑问 ， 用 户 应 该 很 熟悉 以 喜 号 或 者 制 表 符 分 割 的 
文本 文件 ， 也 就 是 所 谓 的 逗号 分 隔 值 (CSV) 或 者 制 表 符 分 割 值 

(TSV) 。 只 要 用 户 需要 ，Hive 是 支持 这 些 文件 格式 的 ， 在 后 面 将 会 
介绍 其 具体 使 用 方式 。 然 而 ， 这 两 种 文件 格式 有 一 个 共同 的 缺点 ， 那 
就 是 用 户 需 要 对 文本 文件 中 那些 不 需要 作为 分 阳 符 处 理 的 有 号 或 者 制 
表 符 格外 小 心 。 也 因此 ，Hive 默 认 使 用 了 几 个 控制 学 符 ， 这 些 字符 很 
少 出 现在 字段 值 中 。Hive 使 用 术语 field 来 表示 蔡 换 默认 分 隔 符 的 字 
符 ， 稍 后 我 们 将 可 以 看 到 。 表 3-3 列 举 了 这 些 分 隔 符 。 


表 3-3 ”Hive 中 默认 的 记录 和 字段 分 割 符 


全 来 说 ， 每 行 都 是 一 条 记录 ， 因 此 换行 符 可 以 分 割 记录 


A 于 分 隔 字段 ( 列 ) 。 在 CREATE TABLE 语 句 中 可 以 使 用 八进制 编码 
(Ctrl+A) |\001 表 示 


0 素 ， 或 用 于 MAP 中 键 - 值 对 之 
。 在 CREATE TABLE 语句 中 可 以 使 用 八进制 编码 \002 表 示 


Et ie 分 隔 。 在 CREATE TABLE 语句 中 可 以 使 用 
进 制 编 码 \003 表 示 


前 面 草 节 中 介绍 的 employees 表 的 记录 看 上 去 和 下 面 展示 的 这 个 例 
子 是 一 样 的 ,其 其 中 使 用 到 了 A 等 字符 来 作为 字段 分 隔 符 。 像 Emacs 这 
样 的 文本 编辑 器 将 会 以 这 种 形式 来 展示 这 些 分 隅 符 。 因 为 页 面 篇 幅 有 
限 ， 所 以 每 行 数据 并 非 显 示 在 同一 行 。 0 EB 较 清晰 地 展示 每 行 记 
录 ， 我 们 在 行 与 行 间 额 外 增加 了 一 个 空 


John Doe^AA100000.0AAMary Smith^BTodd Jones^AFederal 
Taxes^C.2^BStateTaxes^C.05^ BInsurance^C.1^A1 Michigan 
Ave.^BChicago^BIL 和 B60600 


Mary SmithAA80000.0AABill King^AFederal Taxes^C.2^BState 
Taxes^C.05^BInsurance^ C.1^A100 Ontario St.^BChicago^BIL 和 B60601 


Todd JonesAA70000.0AAFederal Taxes^C.15^BState 
Taxes^C.03^BInsurance^C.1^A200 Chicago Ave.^BOak 
Park^BIL 和 B60700 


Bill King^A60000.0^AFederal Taxes^C.15^BState 
Taxes^C.03^BInsurance^C.1^A300 Obscure Dr. 和 ^BObscuria^BIL 和 人 B60100 


了 其 可 读 性 并 不 好 ， 但 十 当然 了 ， 我 们 可 以 使 用 Hive 来 读 取 这 些 数 


我 们 移 来 看 看 第 1 行 记录 来 了 解 一 下 这 个 结构 。 首先 ， 如 采 使 用 
JavaScript 数 据 交 换 格式 (JSON) 来 表示 这 文 条 记录 的 话 ， 那么 如 有 果 增 


加 了 额 表 结构 中 的 字段 名 称 的 话 ， 样 式 将 会 和 如 下 所 示 的 一 样 : 


"name": "John Doe", 
"salary": 100000.0, 
"subordinates": ["Mary Smith", "Todd Jones"], 
"deductions": { 
"Federal Taxes": 
"State Taxes": 
"Insurance": 


了 
"address": { 
"street": "1 Michigan Ave.", 
"city": "Chicago", 
"state": i 
" 1 
"zip": 60600 
} 


} 


这 里 ， 用 户 可 能 会 发 现在 JSON 中 map 类 型 和 struct 类 型 其 实 是 一 样 
的 。 


那么 ， 我 们 来 看 看 文本 文件 的 第 1 行 分 解 出 来 的 结果 。 
Q@ John Doe 对 心 name 字段 ， 表 示 用 户 名 。 


@ 100000.0 对 应 salary 字 段 ， 表 示 薪 水 。 


@ Mary SmithABTodd Jones 对 应 subordinates 字 段 ， 表 示 下 属 
是 “Mary Smith” 和 “Todd Jones”。 


@ Federal Taxes^C.2^BState Taxes^C.05^BInsurance^C.1 对 应 
deductions 字 段 ， 表 示 扣 除 的 金额 ， 其 中 20% 用 于 上 缴 “ 国 税 *"，5% 用 于 
上 缴 “ 州 税 *"， 还 有 10% 用 于 上 缴 “ 保 险 费 。” 


@ 1 Michigan Ave.^BChicago^BILAB60600 对 A 以 address 字 段 ， 表 示 
住址 是 “之 加 哥 第 一 冤 鞭 根 大 道 60600 号 。” 


用 户 可 以 不 使 用 这 些 移 认 的 分 隅 符 ， 而 指定 使 用 其 他 分 隔 符 。 当 
有 其 他 应 用 程序 使 用 不 同 的 规则 写 数据 时 ， 这 是 非常 必要 的 。 下 面 这 
个 表 结 构 声 明和 之 前 的 那个 表 古 一 样 的 ， 不 过 这 里 明确 地 指定 了 分 隔 
符 : 


CREATE TABLE employees ( 

name STRING, 

salary FLOAT, 

subordinates ARRAY<STRING>, 

deductions MAP<STRING, FLOAT>, 

address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> 


) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\001'" 
COLLECTION ITEMS TERMINATED BY '\002' 
MAP KEYS TERMINATED BY '\003" 

LINES TERMINATED BY '\n' 

STORED AS TEXTFILE; 


ROW FORMAT DELIMITED 这 组 关键 字 必 须要 写 在 其 他 子 句 〈 除 
了 STORED AS ... 子 句 ) 之 前 。 


字符 \001 是 AA 的 八进制 数 。ROW FORMAT DELIMITED 
FIELDSTERMINATED BY "\001' 这 个 子 句 表明 Hive 将 使 用 ^A 字 符 作为 
列 分 割 符 。 


同样 地 ， 字 符 \002 是 AB 的 八进制 数 。ROW FORMAT 
DELIMITEDCOLLECTION ITEMS TERMINATED BY \002' 这 个 子 句 
表明 Hive 将 使 用 AB 作 为 集合 元 素 间 的 分 隔 符 。 


最 后 ， 字 符 \003 是 AC 的 八进制 数 。ROW FORMAT DELIMITEDMAP 
KEYS TERMINATED BY \003' 这 个 子 句 表 明 Hive 将 使 用 AC 作 为 map 的 
键 和 值 之 间 的 分 隔 符 。 


子 句 LINES TERMINATED BY '...' 和 STORED AS ... 不 需要 ROW 
FORMAT DELIMITED 关 键 字 。 


事实 上 ，Hive 到 目前 为 止 对 于 LINESTERMINATED BY ... 仅 支持 字 
符 \n?， 世 就 是 说 行 与 行 之 间 的 分 隔 符 只 能 为 \n?。 因 此 这 个 子 句 现在 
使 用 起 来 还 是 有 限制 的 。 


用 户 可 以 重新 指定 列 分 割 符 及 集合 元 素 间 分 隅 符 ， 而 map 中 键 - 值 间 分 
隔 符 仍然 使 用 默认 的 文本 文件 格式 ， 因 此 子 句 STORED AS TEXTFILE 
很 少 被 使 用 到 。 本 书 中 大 多 数 情况 下 ， 我 们 使 用 的 都 是 缺 省 情况 下 默 
认 的 TEXTFILE 文 件 格 式 。 


当然 Hive 还 文 持 其 他 一 些 文件 格式 ， 但 是 我 们 将 其 推迟 到 第 15 章 再 进 
行 论述 。 与 其 相关 的 一 个 话题 是 文件 的 压缩 ， 这 个 我 们 将 在 第 11 草 进 


行 讨论 。 


因此 ， 虽 然 用 户 可 以 明确 指定 这 些 子 句 ， 但 是 在 大 多 数 情况 下 ， 大 多 
和 
符 即 可 。 


ES ge 


这 些 规 则 只 会 影响 到 Hive 在 读 取 文件 后 将 如 何 进 行 划 分 。 只 
有 在 一 些 比较 极端 的 情况 下 ， 才 需要 用 户 手工 去 将 数据 按 正 确 的 
格式 写 入 文件 。 


例如 ， 如 下 表 结 构 声 明定 义 的 是 一 个 表 数 据 按照 逗号 进行 分 割 的 


CREATE TABLE Some_data ( 
first FLOAT, 
Second FLOAT， 
third FLOAT 


) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','; 


用 户 还 可 以 使 用 ^\t 〈 也 就 是 制 表 键 ) 作为 字段 分 隔 符 。 


一 仍 ”提示 

本 例 并 没有 合理 地 处 理 CSV 格 式 〈 值 是 逗号 分 隔 的 ) 和 TSV 
格式 〈 值 是 制 表 键 分 隔 的 ) 文件 通常 使 用 的 场景 。CSV 和 TSV 格 
式 的 文件 中 文件 头 中 包含 有 列 名 ， 而 列 值 字符 串 也 有 可 能 是 包含 
在 引号 中 的 ， 而 且 其 列 值 中 也 有 可 能 包含 有 喜 号 或 者 制 表 键 。 第 
15 章 将 介绍 如 果 更 优雅 地 处 理 这 类 文件 。 


这 种 强大 的 可 定制 功能 使 得 可 以 很 容易 地 使 用 Hive 来 处 理 那 些 由 
其 他 工具 和 各 种 各 样 的 ETL (也 就 是 数据 抽取 、 数 据 转换 和 数据 装载 
过 程 ) 程序 产生 的 文件 。 


3.4” 读 时 模式 


当 用 户 向 传统 数据 库 中 写 入 数据 的 时 候 ， 不 管 是 采用 装载 外 部 数 
据 的 方式 ， 还 是 采用 将 一 个 查询 的 输出 结果 写 入 的 方式 ， 或 者 是 使 用 
UPDATE 语 句 ， 等 等 ， 数 据 库 对 于 存储 都 具有 完全 的 控制 力 。 数 据 库 
就 是 “守门 人 ”。 传 统 数据 库 是 写 时 模式 (schema on write) ， 即 数据 在 
写 入 数据 库 时 对 模式 进行 检查 。 


Hive 对 底层 存储 并 没有 这 样 的 控制 。 对 于 Hive 要 查询 的 数据 ， 有 
很 多 种 方式 对 其 进行 创建 、 修 改 ， 甚 至 损坏 。 因 此 ，Hive 不 会 在 数据 
0 
read 


那么 如 果 模 式 和 文件 内 容 并 不 匹配 将 会 怎么 样 呢 ? Hive 对 此 做 的 
非常 好 ， 因 为 其 可 以 读 取 这 些 数据 。 如 采 每 行 记录 中 的 字段 个 数 少 于 
对 应 的 模式 中 定义 的 字段 个 数 的话 ， 那 么 用 户 将 会 看 到 查询 结果 中 有 
很 多 的 null 值 。 如 果菜 些 字段 是 数值 型 的 ， 但 是 Hive 在 读 取 时 发 现存 在 
非 数值 型 的 字符 串 值 的 话 ， 那 么 对 于 那些 字段 将 会 返回 nul 值 。 除 此 
之 外 的 其 他 情况 下 ，Hive 都 极力 党 试 尽 可 能 地 将 各 种 错误 恢复 过 来 。 


第 4 章 ”HiveQL: 数据 定义 


HiveQL 是 Hive 查 询 语言 。 和 普遍 使 用 的 所 有 SQL 方言 一 样 ， 它 不 
完全 遵守 任 一 种 ANSI SQL 标准 的 修订 和 版 。HiveQL 可 能 和 MySQL 的 方 
言 最 接近 ， 但 是 两 者 还 是 存在 显著 性 差异 的 。Hive 不 支持 行 级 插入 操 
作 、 更 新 操作 和 删除 操作 。Hive 也 不 支持 事务 。Hive 增 加 了 在 Hadoop 
背景 下 的 可 以 提供 更 高 性 能 的 扩展 ， 以 及 一 些 个 性 化 的 扩展 ， 甚 至 还 
增加 了 一 些 外 部 程序 。 


当然 了 ， 大 部 分 的 HiveQL 还 是 很 第 见 的 。 本 章 以 及 随后 的 儿 章 将 
会 使 用 一 些 典型 的 例子 来 讲解 HiveQL 的 那些 特性 。 在 某 些 情 况 下 ， 我 
们 会 从 整体 上 简要 地 谈 到 一 些 细 节 ， 然 后 会 在 后 面 的 章节 里 再 去 比较 
完整 地 进行 讨论 。 


本 章 开始 的 部 分 是 HiveQL 所 谓 的 数据 定义 语言 部 分 ， 其 用 于 创 
建 、 修 改 和 删除 数据 库 、 表 、 视 岁 、 函 数 和 索引 。 本 章 将 会 涉及 到 数 
据 库 和 表 ， 将 会 讨论 视图 有 关内 容 ， 将 讨论 索引 ， 会 讲述 到 画 数 。 


随 着 介绍 的 继续 ， 我 们 也 将 会 讨论 SHOW 和 DESCRIBE 这 些 用 于 
列举 和 描述 信息 的 命令 。 
随后 的 几 章 将 会 研究 HiveQL 的 数据 操作 语言 部 分 ， 其 用 于 将 数据 


导入 到 Hive 表 中 ， 以 及 将 数据 抽取 到 文件 系统 中 。 这 些 章 节 中 还 会 介 
绍 如 何 通过 查询 、 分 组 、 过 滤 、 连 接 等 操作 人 研究 和 操作 数据 。 


4.1 Hive 中 的 数据 库 


Hive 中 数据 库 的 概念 本 质 上 仅仅 是 表 的 一 个 目 孙 或 者 命名 空间 。 
然而 ， 对 于 具有 很 多 组 和 用 户 的 大 集群 来 说 ， 这 是 非常 有 用 的 ， 因 为 
这 样 可 以 避免 表 命 名 冲突 。 通 津 会 使 用 数据 库 来 将 生产 表 组 织 成 逻辑 
组 。 


如 采用 户 没有 显 式 指 定数 据 库 ， 那 么 将 会 使 用 默认 的 数据 库 


default ° 


下 面 这 个 例子 就 展示 了 如 何 创 建 一 个 数据 库 : 


如 条 数据 库 financials 已 经 存在 的 话 ， 那 么 将 会 抛 出 一 个 错误 信 
思 。 使 用 如 下 语句 可 以 避免 在 这 种 情况 下 抛 出 错误 信息 : 


虽然 通常 情况 下 用 户 还 是 期 望 在 同名 数据 库 已 经 存在 的 情况 下 能 
够 抛 出 警告 信息 的 ， 但 是 IF NOT EXISTS 这 个 子 句 对 于 那些 在 继续 执 
行 之 前 需要 根据 需要 实时 创建 数据 库 的 情况 来 说 是 非常 有 用 的 。 


在 所 有 的 数据 库 相 关 的 命令 中 ， 都 可 以 使 用 SCHEMA 这 个 关键 字 
来 蔡 代 关键 字 TABLE 。 


随时 可 以 通过 如 下 命令 方式 查看 Hive 中 所 包含 的 数据 库 : 


hive> SHOW DATABASES,; 
default 
financials 


hive> CREATE DATABASE human_resources,; 


hive> SHOW DATABASES,; 
default 

financials 
human_resources 


如 采 数 据 库 非 常 多 的 话 ， 那 么 可 以 使 用 正则 表达 式 匹 配 来 猎 选 出 需要 
的 数据 库 名 ， 正 则 表达 式 这 个 概念 ， 将 会 在 第 6.2.3 广 ”介绍 。 下 面 这 
个 例子 展示 的 是 列举 出 所 有 以 字母 h 开 头 ， 以 其 他 字符 结尾 即 .* 部 分 
含义 ) 的 数据 库 名 : 


hive> SHOW DATABASES LIKE 'h.*'; 
human_resources 


hive> ... 


Hive 会 为 每 个 数据 库 创 建 一 个 目录 。 数 据 库 中 的 表 将 会 以 这 个 数 


据 库 目 好 的 子 目录 形式 存储 。 有 一 个 例外 整 古 default 数 据 库 中 的 表 ， 
因为 这 个 数据 库 本 喘 没 有 目 己 的 目录 。 


数据 库 所 在 的 目 孙 位 于 属性 hive.metastore.warehouse.dir 所 指定 的 
顶层 目录 之 后 ， 这 个 配置 项 我 们 已 经 在 前 面 的 第 2.5.1 广 “” 和 第 2.5.2 
节 “» 中 进行 了 介绍 。 假 设 用 户 使 用 的 是 这 个 配置 项 默认 的 配置 ， 也 束 
是 /userhive/warehouse， 那 么 当 我 们 创建 数据 库 financials 时 ，Hive 将 会 
对 应 地 创建 一 个 目录 /user/hive/warehouse/financials.db。 这 里 请 注意 ， 
数据 库 的 文件 目录 名 是 以 .db 结尾 的 。 


用 户 可 以 通过 如 下 的 命令 来 修改 这 个 默认 的 位 置 : 
hive> CREATE DATABASE financials 
> LOCATION '/my/preferred/directory'; 


用 户 也 可 以 为 这 个 数据 库 增 加 一 个 描述 言 轧 ， 这 样 通过 
DESCRIBE DATABASE <database> 命令 就 可 以 查看 到 该 信息 。 


hive> CREATE DATABASE financials 
> COMMENT 'Holds all financial tables'; 


hive> DESCRIBE DATABASE financials,; 
financials Holds all financial tables 
hdfs://master-server/user/hive/warehouse/financials.db 


从 上 面 的 例子 中 ， 我 们 可 以 注意 到 ，DESCRIEB DATABASE 语 名 
也 会 显示 出 这 个 数据 库 所 在 的 文件 目录 位 置 路 径 。 在 这 个 例子 中 ， 
URI 格 式 是 hdfs。 如 果 安 装 的 是 MapR， 那 么 这 里 就 应 该 是 maprfs。 对 
于 亚马逊 弹性 MapReduce (EMR) 集群 ， 这 里 应 该 是 hdfs， 但 是 用 户 
可 以 设置 hive.metastore.warehouse.dir 为 亚马逊 S3 特 定 的 格式 〈 例 如 ， 
属性 值 设 置 为 s3n://bucketname...) 。 用 户 可 以 使 用 s3 作 为 模式 ， 但 是 
如 果 使 用 新 版 的 规则 s3n 会 更 好 。 


前 面 DESCRIBE DATABASE 语 名 的 输出 中 ， 我 们 使 用 了 master- 
server 来 代表 URI 权 限 ， 也 就 是 说 应 该 是 由 文件 系统 的 “ 主 节 点 ”( 例 
如 ，HDFS 中 运行 NameNode 服 务 的 那 台 服务 器 ) 的 服务 器 名 加 上 一 个 
可 选 的 端口 号 构成 的 (例如 ， 服 务 絮 名 : 端口 号 这 样 的 格式 ) 。 如 果 
用 户 执行 的 是 伪 分 布 式 模式 ， 那 么 主 节 点 服务 器 名 称职 应 该 是 
localhost。 对 于 本 地 模式 ， 这 个 路 径 应 该 是 一 个 本 地 路 径 ， 例 如 


file:///user/hive/warehouse/financials.db ° 


如 果 这 部 分 信息 省 略 了 ， 那 么 Hive 将 会 使 用 Hadoop 配 置 文件 中 的 
配置 项 fs.default.name 作 为 master-server 所 对 应 的 服务 器 名 和 端口 号 ， 


这 个 配置 文件 可 以 在 $HADOOP_HOME/conf 这 个 目录 下 找到 。 


需要 明确 的 是 ，hdfs:///user/hive/warehouse/financials.db 和 hdfs://master- 
server/user/hive/warehouse/financials.db 是 等 价 的 ， 其 中 master-server 是 


主 世 点 的 DNS 名 和 可 选 的 端口 号 。 


为 了 保持 完整 性 ， 当 用 户 指 定 一 个 相对 路 径 (例如 ， 
some/relative/path) 时 ， 对 于 HDFS 和 Hive， 都 会 将 这 个 相对 路 径 放 到 
分 布 式 文件 系统 的 指定 根 目录 下 (例如 ，hdfs:///user/<user-name>) 。 
然而 ， 如 果 用 户 是 在 本 地 模式 下 执行 的 话 ， 那 么 当前 的 本 地 工作 目 孙 
将 是 some/relative/path 的 父 目 录 。 


为 了 脚本 的 可 移植 性 ， 通 常会 省 略 掉 那 个 服务 器 和 端口 号 信息 ， 
而 只 有 在 涉及 到 男 一 个 分 布 式 文件 系统 实例 〈 包 括 S3 存 储 ) 的 时 候 才 


会 指明 该 信息 。 


此 外 ， 用 户 还 可 以 为 数据 库 增 加 一 些 和 其 相关 的 键 - 值 对 属性 信 
轧 ， 尽 管 目前 仅 有 的 功能 就 是 提供 了 一 种 可 以 通过 DESCRIBE 
DATABASE EXTENDED <database> 语 句 显示 出 这 些 信息 的 方式 : 


hive> CREATE DATABASE financials 
> WITH DBPROPERTIES ('creator' = 'Mark Moneybags', 'date' = '2012-01-02'); 


hive> DESCRIBE DATABASE financials,; 
financials hdfs://master-server/user/hive/warehouse/financials.db 


hive> DESCRIBE DATABASE EXTENDED financials; 
financials hdfs://master-server/user/hive/warehouse/financials.db 
{date=2012-01-02, creator=Mark Moneybags ) ; 


USE 命 令 用 于 将 某 个 数据 库 设 置 为 用 户 当前 的 工作 数据 库 ， 和 在 
文件 系统 中 切换 工作 目录 是 一 个 概念 :: 


hive> USE financials,; 


现在 ， 使 用 像 SHOW TABLES 这 样 的 命令 束 会 显示 当前 这 个 数据 
库 下 所 有 的 表 。 


不 笠 的 是 ， 并 没有 一 个 命令 可 以 让 用 户 查 看 当前 所 在 的 是 哪个 数 
据 库 ! 洱 运 的 是 ， 在 Hive 中 是 可 以 重复 使 用 USE... 命 令 的 ， 这 是 因为 
在 Hive 中 并 没有 岁 套 数据 库 的 概念 。 


可 以 回想 下 ， 在 ”中 提 到 过 ， 可 以 通过 设置 一 个 属性 值 来 在 提示 符 
ee 前 所 在 的 数据 库 (Hive v0.8.0 版 本 以 及 之 后 的 版 本 才 文 持 
功能 ) : 


hive> set hive.cli.print.current.db=true; 


hive (financials)> USE default; 


hive (default)> set hive.cli.print.current.db=false; 


最 后 ， 用 户 可 以 删除 数据 库 : 


hive> DROP DATABASE IF EXISTS financials; 


IFEXISTS 子 句 是 可 选 鸭 ， 如 果 加 了 这 个 子 句 ， 就 可 以 避免 因数 据 
库 finanacials 不 存在 而 抛 出 警告 信息 。 


默认 情况 下 ，Hive 坪 不 允许 用 户 删 除 一 个 包含 有 表 的 数据 库 的 。 
用 户 要 么 先 删 除数 据 库 中 的 表 ， 然 后 再 删除 数据 库 ， 要 人 么 在 删除 命令 
人 ， 这 样 可 以 使 Hive 目 行 先 删除 数据 库 


如 果 使 用 的 是 RESTRICT 这 个 关键 字 而 不 是 CASCADE 这 个 关键 字 
的 话 ， 那 么 就 和 默认 情况 一 样 ， 也 就 是 ， 如 果 想 删除 数据 库 ， 那 么 必 
须 先 要 删除 掉 该 数据 库 中 的 所 有 表 。 


如 宁 某 个 数据 库 和 被 删除 了 ， 那 么 其 对 应 的 目 永 也 同时 会 被 删除 。 


4.2 ”修改 数据 库 


用 户 可 以 使 用 ALTER DATABASE 命 令 为 某 个 数据 库 的 
DBPROPERTIES 设 置 键 - 值 对 属性 值 ， 来 描述 这 个 数据 库 的 属性 信 
妃 。 数 据 库 的 其 他 元 数据 信息 都 是 不 可 更 改 的 ， 包 括 数据 库 名 和 数据 
库 所 在 的 目录 位 置 : 


hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba'); 


没有 办 法 可 以 删除 或 者 “ 重 置 " 数 据 库 属性 。 
4.3 ”创建 表 


CREATE TABLE 语 句 遵 从 SQL 语 法 惯例 ， 但 是 Hive 的 这 个 语句 中 
具有 显著 的 功能 扩展 ， 使 其 可 以 具有 更 广泛 的 灵活 性 。 例 如 ， 可 以 定 
义 表 的 数据 文件 存储 在 什么 位 置 、 使 用 什么 样 的 存储 格式 ， 等 等 。 前 
面 我 们 在 ”中 已 经 讨论 了 很 多 种 存储 格式 ， 同 时 在 稍 后 的 我 们 将 会 再 次 
探讨 一 下 更 加 高 级 的 格式 。 本 下 中 ， 我 们 会 讨论 其 他 一 些 在 CREATE 
TABLE 语 句 中 可 以 使 用 到 的 选项 ， 下 面 这 个 表 结 构 适用 于 前 面 我 们 
在 ”中 所 声明 的 employees 表 : 


CREATE TABLE IF NOT EXISTS mydb.employees ( 
name STRING COMMENT 'Employee name', 
salary FLOAT COMMENT 'Employee salary', 
subordinates ARRAY<STRING> COMMENT 'Names of subordinates', 
deductions MAP<STRING, FLOAT> 
COMMENT 'Keys are deductions names, values are percentages', 


address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> 
COMMENT 'Home address') 
COMMENT 'Description of the table' 
TBLPROPERTIES ('creator'='me', 'created at'='2012-01-02 10:00:00',， ...) 
LOCATION '/user/hive/warehouse/mydb.db/employees',; 


目 先 ， 我 们 可 以 注意 到 ， 如 果 用 户 当前 所 处 的 数据 库 并 非 古 目标 
数据 库 ， 那 么 用 户 是 可 以 在 表 名 前 增加 一 个 数据 库 名 来 进行 指定 的 ， 
也 束 是 例 于 中 的 mydb 。 


如 果 用 户 增加 上 可 选项 IF NOT EXITS ， 那 么 若 表 已 经 存在 了 ， 
Hive 就 会 忽略 掉 后 面 的 执行 语句 ， 而 且 不 会 有 任何 提示 。 在 那些 第 一 
次 执行 时 需要 创建 表 的 脚本 中 ， 这 么 写 是 非常 有 用 的 。 


然而 ， 这 个 语句 还 有 一 个 用 户 需 要 注意 的 问题 。 如 采用 户 所 指定 
的 表 的 模式 和 已 经 存在 的 这 个 表 的 模式 不 同 的 话 ，Hive 不 会 为 此 做 出 
提示 。 如 采用 户 的 意图 是 使 这 个 表 具 有 重新 指定 的 那个 新 的 模式 的 
话 ， 那 么 瑟 需 要 先 删除 这 个 表 ， 也 束 是 丢弃 之 前 的 数据 ， 然 后 再 重建 
这 张 表 。 用 户 可 以 考虑 使 用 一 个 或 多 个 ALTER TABLE 语 句 来 修改 已 经 
存在 的 表 的 结构 。 有 更 详细 的 信息 。 
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如 果 用 户 使 用 了 IF NOT EXISTS， 而 且 这 个 已 经 存在 的 表 和 
CL TABLE 语 句 后 指定 的 模式 是 不 同 的 。Hive 会 忽略 挥 这 个 
2 


用 户 可 以 在 字段 类 型 后 为 每 个 字段 增加 一 个 注释 。 和 数据 库 一 
样 ， 用 户 也 可 以 为 这 个 表 本 身 添加 一 个 注释 ， 还 可 以 自 定 义 一 个 或 多 
个 表 属 性 。 大 多 数 情况 下 ，TBLPROPERTIES 的 主要 作用 是 按键 - 值 对 
的 格式 为 表 增 加 额外 的 文档 说 明 。 但 是 ， 当 我 们 检查 Hive 和 像 
DymamoDB 《请 参考 第 17.5 节 “DymamoDB” 中 的 内 容 ) 这 样 的 数据 库 
间 的 集成 时 ， 我 们 可 以 发 现 TBLPROPERTIES 还 可 用 作 表 示 关 于 数据 
库 连接 的 必要 的 元 数据 信息 。 


Hive 会 目 动 增加 两 个 表 属 性 : 一 个 是 last_modified_by， 其 你 存 着 
最 后 修改 这 个 表 的 用 户 的 用 户 名 ; 夯 一 个 是 last_modified_ time， 其 倚 
存 着 最 后 一 次 修改 的 新 纪元 时 间 秒 。 


本 


心 
~ 提示 

Hive v0.10.0 版 本 中 有 一 个 功能 增强 计划 ， 也 束 是 增加 一 个 
SHOW TBLPROPERTIES table name 命令 ， 用 于 列举 出 某 个 表 的 
TBLPROPERTIES 属 性 信息 。 


最 后 ， 可 以 看 到 我 们 可 以 根据 情况 为 表 中 的 数据 指定 一 个 存储 路 
径 〈《 和 元 数据 截然 不 同 的 是 ， 元 数据 总 是 会 保存 这 个 路 径 ) 。 在 这 个 
例子 中 ， 我 们 使 用 的 Hive 将 会 使 用 的 默认 的 路 
径 /user/hive/warehouse/mydb.db/employees。 其 中 ，/user/hive/warehouse 
是 默认 的 “数据 仓库 ”路 径 地 址 (这 个 之 前 有 讨论 过 ) ，mydb.db 是 数据 
库 目 录 ，employees 是 表 目 录 。 


默认 情况 下 ，Hive 总 是 将 创建 的 表 的 目录 放置 在 这 个 表 所 属 的 数 
据 库 目 了 永 之 后 。 不 过 ，default 数 据 库 是 个 例外 ， 其 
在 /uservhive/warehouse 下 并 没有 对 应 一 个 数据 库 目 未 。 因 此 default 数 据 


库 中 的 表 目 录 会 直接 位 于 /user/hive/warehouse 目 录 之 后 (除了 用 户 明 确 
指定 为 其 他 路 径 ) 。 
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为 了 避免 潜在 产生 混 清 的 可 能 性 ， 如 果 用 户 不 想 使 用 默认 的 
表 路 人 径 ， 那 么 最 好 是 使 用 外 部 表 。 碍 看 获得 更 详细 信息 。 


用 户 还 可 以 拷贝 一 张 已 经 存在 的 表 的 表 模 式 (而 无 需 找 贝 数 


据 ) 


LIKE mydb.employees,; 
这 个 版 本 还 可 以 接受 可 选 的 LOCATION 语 句 ， 但 是 注意 其 他 的 属性 ， 
包括 模式 ， 都 是 不 可 能 重新 定义 的 ， 这 些 信息 直接 从 原始 表 获 得 。 


SHOW TABLES 命 令 可 以 列举 出 所 有 的 表 。 如 果 不 增加 其 他 参 
数 ， 那 么 只 会 显示 当前 工作 数据 库 下 的 表 。 假 设 我 们 已 经 创建 了 一 些 
其 他 表 ，table1 和 table2， 而 且 我 们 的 工作 数据 库 是 mydb: 


hive> USE mydb 


hive> SHOW TABLES,; 
employees 


0 0 0 


hive> USE default,; 


hive> SHOW TABLES IN mydb 


employees 
table1 
table2 


如 采 我 们 有 很 多 的 表 ， 那 么 我 们 可 以 使 用 正则 表达 式 来 过 滤 出 所 
需要 的 表 名 。 正 则 表达 式 这 个 概念 我 们 将 在 进行 讨论 。 


hive> USE mydb 


hive> SHOW TABLES 'empl.*',; 
employees 


Hive 并 非 文 持 所 有 的 正则 表达 式 功能 。 如 采用 户 了 解 正 则 表达 式 
的 话 ， 最 好 事先 测试 下 备 选 的 正则 表达 式 古 否 真 正 奏 效 ! 


单 引号 中 的 正则 表达 式 才 示 的 是 选择 所 有 以 empl 开 头 并 以 其 他 任 
意 字 符 〈 也 束 是 .* 部 分 ) 结尾 的 表 和 名。 


IN database_name 语 句 和 对 表 名 使 用 正则 表达 式 两 个 功能 尚 不 
支持 同时 使 用 。 


我 们 也 可 以 使 用 DESCRIBE EXTENDED mydb.employees 命 令 来 查 
看 这 个 表 的 详细 表 结 构 信 息 。 (如 果 我 们 当前 所 处 的 工作 数据 库 就 是 
mydb 的 话 ， 那 么 我 们 可 以 不 加 mydb. 这 个 前 级 。) 下 面 显示 的 内 容 我 
们 进行 过 格式 调整 ， 使 之 查看 起 来 更 加 容易 ， 而 且 我 们 还 省 略 掉 了 一 
些 无 天 紧要 的 细节 ， 因 为 我 们 只 天 注 我 们 感 兴趣 的 信息 : 


hive> DESCRIBE EXTENDED mydb.employees; 

name string Employee name 

salary float Employee salary 

subordinates array<string> Names of subordinates 

deductions map<string,float> Keys are deductions names, values are 
percentages 

address struct<street:string,city:string,state:string,zip:int> Home address 


Detailed Table Information Table(tableName:employees, dbName:mydb, owner:me, 


location:hdfs://master-server/user/hive/warehouse/mydb.db/employees, 

parameters:{creator=me, created at='2012-01-02 10:00:00 '， 
Jast_modified user=me, last_modified_ time=1337544510, 
comment:Description of the table, ...}, ...) 


使 用 FORMATTED 关 键 字 替代 EXTENDED 关 键 字 的 话 ， 可 以 提供 
更 加 可 读 的 和 宛 长 的 输出 信息 。 ( 译 者 注 ， 实际 情况 是 使 用 
FORMATTED 要 更 多 些 ， 因 为 其 输出 内 容 详 细 而 且 可 读 性 强 ) 


上 面 输出 信息 的 第 一 段 是 和 没有 使 用 关键 字 EXTENDED 或 者 
人 〈( 例 如， 只 输出 包含 有 列 描述 信息 


如 有 果 用 户 只 想 查 看 某 一 个 列 的 信息 ， 那 么 只 要 在 表 名 后 增加 这 个 
字段 的 名 称 即 可 。 这 种 情况 下 ， 使 用 EXTENDED 关 键 字 也 不 会 增加 更 
多 的 输出 信息 : 


hive> DESCRIBE mydb.employees.salary; 
salary float Employee salary 


回 到 之 前 的 那个 包含 详细 扩展 信息 的 输出 。 我 们 需要 特别 注意 以 
location: 开 头 的 那 行 摘 述 信息 。 这 个 是 Hive 在 HDFS 中 的 存储 表 中 数据 
的 完整 的 URL 目 孙 路 径 ， 这 个 我 们 之 前 有 讨论 过 的 。 


ES ge 


我 们 说 过 last_modified_by 和 last_ modified_ time 两 个 表 属 性 是 
会 目 动 创建 的 。 如 果 没 有 定义 任何 的 用 户 目 定义 表 属 性 的 话 ， 那 
么 它们 也 不 会 显示 在 表 的 详细 信息 中 ! 


4.3.1 ”管理 表 


我 们 目前 所 创建 的 表 都 是 所 谓 的 管理 表 ， 有 时 也 被 称 为 内 部 表 。 
因为 这 种 表 ，Hive 会 (或 多 或 少 地 ) 控制 着 数据 的 生命 周期 。 正 如 我 
们 所 看 见 的 ，Hive 默 认 情 况 下 会 将 这 些 表 的 数据 存储 在 由 配置 项 
hive.metastore.warehouse.dir (例如 ，/user/hive/warehouse) 所 定义 的 目 
杂 的 子 有 目录 下 。 


当 我 们 删除 一 个 管理 表 时 (参考 第 4.5 太 “) ，Hive 也 会 删除 这 个 
表 中 数据 。 


但 是 ， 管 理 表 不 方便 和 其 他 工作 共 至 数据 。 例 如 ， 假 设 我 们 有 一 
份 由 Pig 或 者 其 他 工具 创建 并 且 主 要 由 这 一 工具 使 用 的 数据 ， 同 时 我 们 
还 想 使 用 Hive 在 这 份 数据 上 执行 一 些 查 询 ， 可 十 并 没有 给 予 Hive 对 数 
据 的 所 有 权 ， 我 们 可 以 创建 一 个 外 部 表 指 癌 这 份 数 据 ， 而 并 不 需要 对 
其 具有 所 有 权 。 


4.3.2 ”外 部 表 


假设 我 们 正在 分 析 来 自 股票 市 场 的 数据 。 我 们 会 定期 地 从 像 
Infochimps(http://infochimps.com/datasets) 这 样 的 数据 源 接 入 关于 
NASDAQ 和 NYSE 的 数据 ， 然 后 使 用 很 多 工具 来 分 析 这 份 数据 。 (我 
们 可 以 看 到 数据 集 名 称 分 别 为 
infochimps_dataset_4777_download_16185 和 
infochimps_dataset_4778_download_16677， 实 际 上 该 数据 来 源 于 
Yahoo! 财 经 。) 我 们 后 面 将 要 使 用 的 模式 和 这 2 份 源 数 据 都 是 匹配 的 。 
我 们 假设 这 些 数据 文件 位 于 分 布 式 文件 系统 的 /data/stocks 目 录 下 。 


下 面 的 语句 将 创建 一 个 外 部 表 ， 其 可 以 读 取 所 有 位 于 /data/stocks 
目录 下 的 以 逗号 分 隔 的 数据 : 


CREATE EXTERNAL TABLE IF NOT EXISTS stocks ( 
exchange STRING, 
symbol STRING, 
ymd STRING, 
price_open FLOAT, 
price_high FLOAT, 


price_low FLOAT, 

price_close FLOAT, 

volume INT, 

price_adj_close FLOAT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
LOCATION '/data/stocks'; 


关键 字 EXTENAL 人 告诉 Hive 这 个 表 是 外 部 的 ， 而 后 面 的 
LOCATION... 子 句 则 用 于 告诉 Hive 数 据 位 于 哪个 路 径 下 。 


因为 表 是 外 部 的 ， 所 以 Hive 并 非 认 为 其 完全 拥有 这 份 数据 。 
由 1 不 过 摘 述 表 的 元 数据 信息 会 被 
I 除 掉 。 


管理 表 和 外 部 表 有 一 些小 小 的 区 别 ， 屠 就是， 有些 HiveQL 语 法 结 
沟 并 不 适用 于 外 部 表 。 后 面 当 我 们 遇 到 这 些 问 题 的 时 候 ， 我 们 再 来 
行 讲述 。 


然而 ， 我 们 需要 清楚 的 重要 的 一 点 是 管理 表 和 外 部 表 之 间 的 差异 
要 比 刚 开始 所 看 到 的 小 得 多 。 即 使 对 于 管理 表 ， 用 户 也 是 可 以 知道 数 
据 是 位 于 哪个 路 径 下 的 ， 因 此 用 户 也 是 可 以 使 用 其 他 工具 (例如 
hadoop 的 dfs 命 令 等 ) 来 修改 甚至 删除 管理 表 所 在 的 路 径 目 隶 下 的 数据 


的 。 可 能 从 严格 意义 上 来 说 ，Hive 是 管理 着 这 些 目 录 和 文件 ， 但 是 其 
并 非 具 有 对 它们 的 完全 控制 权限 ! 回想 下 ， 在 第 3.4 节 “ 读 时 模式 ”中 ， 
我 们 说 过 ，Hive 实 际 上 对 于 所 存储 的 文件 的 完整 性 以 及 数据 内 容 是 否 
和 1 支配 能 力 ， 其 至 管理 表 都 没有 给 用 户 提 供 这 些 
管理 能 力 。 

尽管 如 此 ， 好 的 软件 设计 的 一 般 原 则 是 表达 意图 。 如 果 数 据 会 被 
多 个 工具 共享 ， 那么 可 以 创建 一 个 外 部 表 ， 来 明确 对 数据 的 所 有 权 。 

用 户 可 以 在 DESCRIBE EXTENDED tablename 语 句 的 输出 中 查看 


到 表 是 否 是 管理 表 或 外 部 表 。 在 末尾 的 详细 表 信 息 输 出 中 ， 对 于 管理 
表 ， 用 户 可 以 看 到 如 下 信息 : 


对 于 外 部 表 ， 用 户 可 以 查看 到 如 下 信息 : 


对 于 管理 表 ， 用 户 还 可 以 对 一 张 存在 的 表 进 行 表 结 构 复 制 (而 不 
会 复制 数据 ) : 
CREATE EXTERNAL TABLE IF NOT EXISTS mydb.employees3 


LIKE mydb.employees 
LOCATION '/path/to/data',; 
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这 里 ， 如 果 语 句 中 省 略 掉 EXTERNAL 关 键 字 而 且 源 表 是 外 部 
表 的 话 ， 那 么 生成 的 新 表 也 将 是 外 部 表 。 如 果 语 句 中 省 略 掉 
EXTERNAL 关 键 字 而 且 源 表 是 管理 表 的 话 ， 那 么 生成 的 新 表 也 将 
是 管理 表 。 但 是 ， 如 果 语 句 中 包含 有 EXTERNAL 关 键 字 而 且 源 表 
是 管理 表 的 话 ， 那 么 生成 的 新 表 将 是 外 部 表 。 即 使 在 这 种 场景 
下 ，LOCATION 子 句 同样 是 可 选 的 。 


4.4 分 区 表 、 管 理 表 


数据 分 区 的 一 般 概 念 存在 已 信 。 其 可 以 有 多 种 形式 ， 但 是 通常 使 
用 分 区 来 水 平分 散 压 力 ， 将 数据 从 物理 上 转移 到 和 使 用 最 频 楷 的 用 户 
更 近 的 地 方 ， 以 及 实现 其 他 目的 。 


Hive 中 有 分 区 表 的 概念 。 我 们 可 以 看 到 分 区 表 具 有 重要 的 性 能 优 
e000 0 比如 
分 层 存 储 。 


我 们 首先 会 讨论 下 分 区 管理 表 。 重 新 来 看 之 前 的 那 张 emplyees 表 
并 假设 我 们 在 一 个 非常 大 的 跨国 公司 工作 。 我 们 的 HR 人 员 经 常会 执行 
一 些 市 WHERE 语 句 的 查询 ， 这 样 可 以 将 结果 限制 在 某 个 特定 的 国家 
或 者 某 个 特定 的 第 一 级 细 分 (例如 ' 美 国 的 州 ;或 者 加 拿 大 的 省 ) 

(第 一 级 细 分 是 一 个 存在 的 术语 ， 例 如 : 
http:/www.commondatahub.comystate_source.jsp 这 里 就 有 使 用 到 。) 为 
简单 起 见 我 们 将 只 使 用 到 state 〈 州 ) 。 在 address (住址 ) 字段 中 已 经 
重复 包含 了 州 信息 。 这 和 state 分 区 是 不 同 的 。 我 们 可 以 在 字段 address 
中 删除 state 元 素 。 查 询 中 并 不 会 造成 模糊 不 清 的 问题 ， 因 为 我 们 需要 
通过 使 用 address.state 才 能 调用 到 address 中 这 个 元 素 的 值 。 那 么 ， 让 我 
们 先 按照 country (国家 ) 再 按照 state ( 州 ) 来 对 数据 进行 分 区 吧 : 


CREATE TABLE employees ( 
name STRING, 
salary FLOAT, 


subordinates ARRAY<STRING>, 
deductions MAP<STRING, FLOAT>, 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> 


) 
PARTITIONED BY (country STRING, state STRING); 


分 区 表 改 变 了 Hive 对 数据 存储 的 组 织 方式 。 如 果 我 们 是 在 mydb 数 
中 创建 的 这 个 表 ， 那 么 对 于 这 个 表 只 会 有 一 个 employees 目 隶 与 之 
XJ MY: 


但 是 ，Hive 现 在 将 会 创建 好 可 以 反映 分 区 结构 的 子 目 录 。 例 如 : 


.../employees/country=CA/state=AB 
,../employees/country=CA/state=BC 


,../employees/country=US/state=AL 


.../employees/country=US/state=AK 


征 的 ， 那 些 是 实际 的 目 孙 名 称 。 州 目 孙 下 将 会 包含 有 和 零 个 文件 或 
者 多 个 文件 ， 这 些 文件 中 存放 着 那些 州 的 雇员 信息 。 


分 区 字段 (这 个 例子 中 就 是 country 和 state) 一 旦 创建 好 ， 表 现 得 
忠和 普通 的 字段 一 样 。 这 里 有 一 个 已 知 的 异常 情况 ， 古 由 一 个 bug3 引 起 
的 (参考 第 6.1.4 节 中 的 “聚合 函数 ”内 容 ) 。 事 实 上 ， 除 非 需要 优化 查 
ee 
没 。 


例如 ， 下 面 这 个 碍 询 语句 将 会 查找 出 在 美国 伊利 诗 斯 州 的 所 有 雇 


pail 


SELECT * FROM employees 
WHERE country = 'US' AND state = 'IL'; 


需要 注意 的 是 ， 因 为 country 和 state 的 值 已 经 包含 在 文件 目录 名 称 
中 了 ， 所 以 也 就 没有 必要 将 这 些 值 存放 到 它们 目录 下 的 文件 中 了 。 事 
实 上 ， 数 据 只 能 从 这 些 文件 中 获得 ， 因 此 用 户 需 要 在 表 的 模式 中 说 明 
这 点 ， 而 且 这 个 数据 浪费 空间 。 


对 数据 进行 分 区 ， 也 许 最 重要 的 原因 束 古 为 了 更 快 地 查询 。 在 前 
面 那个 将 结 采 范围 限制 在 伊利 诺 斯 州 的 屡 员 的 查询 中 ， 仪 仅 需 要 扫描 
一 个 目录 下 的 内 容 即 可 。 即 使 我 们 有 成 千 上 万 个 国家 和 州 目录 ， 除 了 
一 个 目录 其 他 的 都 可 以 忽略 不 计 。 对 于 非常 大 的 数据 集 ， 分 区 可 以 显 
着 地 提高 查询 性 能 ， 除 非 对 分 区 进行 第 见 的 范围 筷 和 渤 (例如 ， 按 照 地 
理 位 置 范围 或 按照 时 间 围 等 ) 。 


当 我 们 在 WHERE 子 句 中 增加 谓词 来 按照 分 区 值 进 行 过 滤 时 ， 这 
些 谓词 被 称 为 分 区 过 滤器 。 


即使 你 做 一 个 跨越 整个 美国 的 查询 ，Hive 也 只 会 读 取 65 个 文件 目 
录 ， 其 中 包含 有 50 个 州 ，9 大 地 区 ， 以 及 哥伦比亚 特区 和 6 个 军事 属 
地 。 可 以 通过 如 下 链接 查看 完整 的 列表 : 


http://www.5Ostates.com/abbreviations.htm ° 


当然 ， 如 采用 户 需 要 做 一 个 查询 ， 查 询 对 象 是 全 球 各 地 的 所 有 员 
工 ， 那 么 这 也 是 可 以 做 到 的 。Hive 会 不 得 不 读 取 每 个 文件 目录 ， 但 这 
种 宽 范 围 的 磁 副 扫描 还 是 比较 少见 的 。 


但 是 ， 如 采 表 中 的 数据 以 及 分 区 个 数 都 非常 大 的 话 ， 执 行 这 样 一 
个 包含 有 所 有 分 区 的 查询 可 能 会 触发 一 个 巨大 的 MapReduce 任 务 。 一 
个 高 度 建议 的 安全 措施 就 是 将 Hive 设 置 为 “strict( 严 格 )* 模 式 ， 这 样 如 果 
对 分 区 表 进 行 查 询 而 WHERE 子 句 没 有 加 分 区 过 滤 的 话 ， 将 会 禁止 提 
I ° 用 户 也 可 以 按照 下 面 的 语句 将 属性 值 设置 为 "nostrict( 非 
严格 ): 


hive> set hive.mapred.mode=strict; 


hive> SELECT e.name, e.salary FROM employees e LIMIT 100; 
FAILED: Error in semantic analysis: No partition predicate found for 
Alias "e" Table "employees" 


hive> set hive.mapred.mode=nonstrict,; 


hive> SELECT e.name, e.salary FROM employees e LIMIT 100; 
John Doe 100000.0 


可 以 通过 SHOW PARTITIONS 命 令 查 看 表 中 存在 的 所 有 分 区 : 


hive> SHOW PARTITIONS employees,; 


Country=CA/state=AB 
country=CA/state=BC 


country=US/state=AL 
country=US/state=AK 


如 果 表 中 现在 存在 很 多 的 分 区 ， 而 用 户 只 想 查看 是 否 存 储 某 个 特 
定 分 区 键 的 分 区 的 话 ， 用 户 还 可 以 在 这 个 命令 上 增加 一 个 指定 了 一 个 
或 者 多 个 特定 分 区 字段 值 的 PARTITION 子 句 ， 进 行 过 滤 查 询 : 


hive> SHOW PARTITIONS employees PARTITION(country='US ' ) ， 
country=US/state=AL 
country=US/state=AK 


hive> SHOW PARTITIONS employees PARTITION(country='US', state='AK'); 
country=US/state=AK 


DESCRIBE EXTENDED employees 命 令 也 会 显示 出 分 区 键 : 


hive> DESCRIBE EXTENDED employees,; 
string, 
float, 


struct<...>, 
string, 


string 


Detailed Table Information... 
partitionKeys: [FieldSschema(name:country, type:string, comment:null), 
FieldSschema(name:state, type:string, comment:null)], 


输出 信息 中 的 模式 信息 部 分 会 将 country 和 state 以 及 其 他 字段 列 在 
一 起 ， 因 为 就 查询 而 言 ， 它 们 就 是 字段 。Detailed Table Information 
(详细 表 信 息 ) 将 country 和 state 作 为 分 区 键 处 理 。 这 两 个 键 当 前 的 注 
Re 我 们 也 可 以 像 给 普通 的 字段 增加 注释 一 样 给 分 区 字段 增 
0 注释 。 


在 管理 表 中 用 户 可 以 通过 载 入 数据 的 方式 创建 分 区 。 如 下 例 中 的 
语句 在 从 一 个 本 地 日 录 ($HOME/california-employees) 载 入 数据 到 表 
中 的 时 候 ， 将 会 创建 一 个 US 和 CA (表示 加 利 福 尼 亚 州 ) 分 区 。 用 户 
需要 为 每 个 分 区 字段 指定 一 个 值 。 请 注意 我 们 在 HiveQL 中 是 如 何 引 用 
HOME 环境 变量 的 : 


LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' 
INTO TABLE employees 


PARTITION (country = 'US', state = 'CA'); 


Hive 将 会 创建 这 个 分 区 对 应 的 目 
孙 .../employees/country=US/state=CA， 而 且 $HOME/california- 
employees 这 个 目 永 下 的 文件 将 会 被 搁 贝 到 上 述 分 区 目 未 下。 参见 第 5.1 
节 ” 中 的 内 容 。 


4.4.1 ”外 部 分 区 表 

外 部 表 同 样 可 以 使 用 分 区 。 事 实 上 ， 用 户 可 能 会 发 现 ， 这 是 管理 
大 型 生产 数据 集 最 常见 的 情况 。 这 种 结合 给 用 户 提 供 了 一 个 可 以 和 其 
他 工具 共享 数据 的 方式 ， 同 时 也 可 以 优化 查询 性 能 。 


因为 用 户 可 以 目 己 定义 目录 结构 ， 因 此 用 户 对 于 目录 结构 的 使 用 
具有 更 多 的 灵活 性 。 稍 后 我 们 将 看 到 一 个 特别 有 用 的 例子 。 


我 们 举 一 个 新 例子 ， 非 常 适合 这 种 场景 ， 即 日 志文 件 分 析 。 对 于 
日 志 人 信息， 大 多 数 的 组 织 使 用 一 个 标准 的 格式 ， 其 中 记录 有 时 间 鹤 、 
严重 程度 (例如 ERROR、WARTING、INFO) ， 也 许 还 包含 有 服务 器 
名 称 和 进程 ID， 然 后 跟着 一 个 可 以 为 任何 内 容 的 文本 信息 。 假 设 我 们 
是 在 我 们 的 环境 中 进行 数据 抽取 、 数 据 转换 和 数据 装载 过 程 
(ETL) ， 以 及 日 志文 件 聚 合 过 程 的 ， 将 每 条 日 志 信 息 转 换 为 按照 制 
表 键 分 割 的 记录 ， 并 将 时 间 惟 解析 成 年 、 月 和 日 3 个 字段 ， 剩 余 的 hms 
部 分 〈 也 就 是 时 间 惟 剩余 的 小 时 、 分 钟 和 秒 部 分 ) 作为 一 个 字段 ， 因 
为 这 样 显得 清楚 多 了 。 一 种 方式 是 用 户 可 以 使 用 Hive 或 者 Pig 内 置 的 字 
符 串 解析 函数 来 完成 这 个 日 志 信 息 解 析 过 程 。 男 一 种 方式 是 ， 我 们 可 
以 使 用 较 小 的 数值 类 型 来 保存 时 间 戳 相关 的 字段 以 节省 空间 。 这 里 ， 
我 们 没有 采用 后 面 的 解决 办 法 。 


我 们 可 以 按照 如 下 方式 来 定义 对 应 的 Hive 表 : 


CREATE EXTERNAL TABLE IF NOT EXISTS 1og_messages ( 
hms 
severity 
server STRING, 


process_id INT, 


message STRING) 
PARTITIONED BY (year INT, month INT, day INT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 


我 们 现在 假定 将 日 志 数 据 按照 天 进行 划分 ， 划 分 数据 尺寸 合适 ， 
而 且 按 天 这 个 粒度 进行 查询 速度 也 足够 快 。 


回想 下 ， 之 前 我 们 创建 过 一 个 非 分 区 外 部 表 ， 是 一 个 股票 交易 
表 ， 那 时 要 求 使 用 一 个 LOCATION 子 句 。 对 于 外 部 分 区 表 则 没有 这 样 
的 要 求 。 有 一 个 ALTER TABLE 语句 可 以 单独 进行 增加 分 区 。 这 个 语 
句 需 要 为 每 一 个 分 区 键 指定 一 个 值 ， 本 例 中 ， 也 就 是 需要 为 year 、 
month 和 day 这 3 个 分 区 键 都 指定 值 (关于 这 个 功能 请 参考 4.6 节 中 的 内 
容 ) 。 下 面 是 一 个 例子 ， 演 示 如 何 增加 一 个 2012 年 1 月 2 日 的 分 区 : 


ALTER TABLE lJ]og_messages ADD PARTITION(year = 2012, month = 1, day = 2) 


LOCATION 'hdfs://master_server/data/log messages/2012/01/02'; 


我 们 使 用 的 目录 组 织 习 惯 完全 由 我 们 目 己 定义 。 这 里 ， 我 们 按照 
分 层 目 录 结 构 组 织 ， 因 为 这 古 一 个 合乎 逻辑 的 数据 组 织 方式 ， 但 十 并 
非 要 求 一 定 如 此 。 我 们 可 以 遵从 Hive 的 目录 命名 习惯 〈 例 


如 ，.../exchange=NASDAQ/symbol=AAPL) ， 但 是 也 并 非 要 求 一 定 如 
人 


这 种 灵活 性 的 一 个 有 趣 的 优点 是 我 们 可 以 使 用 像 Amazon S3 这 样 
的 廉价 的 存储 设备 存储 旧 的 数据 ， 同 时 保存 较 新 的 更 加 “有 趣 的 ”数据 
到 HDFS 中 。 例 如 ， 每 天 我 们 可 以 使 用 如 下 的 处 理 过 程 将 一 个 月 前 的 
旧 数 据 转 移 到 S3 中 。 


@ 将 分 区 下 的 数据 拷贝 到 S3 中 。 例 如 ， 用 户 可 以 使 用 hadoop 


distcp 命 令 : 
@ 修改 表 ， 将 分 区 路 径 指 网 到 S3 路 径 : 


ALTER TABLE lJ]og_messages PARTITION(year = 2011，month = 12, day = 2) 


SET LOCATION 's3n://ourbucket/l10gs/2011/01/02'，; 
@@ 使 用 hadoop fs -rmr 命令 删除 掉 HDFS 中 的 这 个 分 区 数据 : 


并 非 一 定 要 是 Amazon 弹 性 MapReduce 用 户 才 能 够 这 样 使 用 S3。 


Apache Hadoop 分 支 版 本 包含 了 对 S3 的 支持 。 用 户 仍旧 是 可 以 查询 这 些 
数据 的 ， 其 至 允许 查询 越过 一 个 月 时 间 范 围 的 “界限 *"， 也 就 是 有 些 数 
据 是 从 HDFS 中 读 取 的 ， 有 些 数 据 是 从 S3 中 读 取 的 ! 


顺便 说 一 下 ，Hive 不 关心 一 个 分 区 对 应 的 分 区 目录 是 否 存 在 或 者 
分 区 目录 下 是 否 有 文件 。 如 有 果 分 区 目录 不 存在 或 分 区 目录 下 没有 文 
件 ， 则 对 于 这 个 过 滤 分 区 的 查询 将 没有 上 返回 结 末 。 当 用 户 想 在 男 外 一 
个 进程 开始 往 分 区 中 写 数 据 之 前 创建 好 分 区 时 ， 这 样 做 是 很 方便 的 。 
数据 一 旦 存在 ， 对 于 这 份 数据 的 查询 吏 会 有 返回 结果 。 


这 个 功能 所 具有 的 另 一 个 好 处 是 : 可 以 将 新 数据 写 入 到 一 个 专用 
的 目录 中 ， 并 与 位 于 其 他 目录 中 的 数据 存在 明显 的 区 别 。 同 时 ， 不 管 
用 户 是 将 旧 数 据 转移 到 一 个 “存档 "位置 还 是 直接 删除 掉 ， 痢 数据 被 自 
改 的 风险 都 被 降低 了 ， 因 为 新 数据 的 数据 子 集 位 于 不 同 的 目录 下 。 


和 非 分 区 外 部 表 一 样 ，Hive 并 不 控制 这 些 数据 。 即 使 表 被 删除 ， 
数据 也 不 会 被 删除 。 


和 分 区 管理 表 一 样 ， 通 过 SHOW PARTITIONS 命 令 可 以 查看 一 个 
外 部 表 的 分 区 : 


hive> SHOW PARTITIONS log_messages,; 


year=2011/month=12/day=31 


year=2012/month=1/day=1 
year=2012/month=1/day=2 


同样 地 ，DESCRIBE EXTENDED log_messages 语 句 会 将 分 区 键 作 
为 表 的 模式 的 一 部 分 ， 和 partitionKeys 列 表 的 内 容 同 时 进行 显示 : 


hive> DESCRIBE EXTENDED 1og_messages 


string, 

int, 
int, 
int 


Detailed Table Information... 

partitionKeys: [FieldSschema(name:year, type:int, comment:null), 
FieldSschema(name:month, type:int, comment:null), 
FieldSschema(name:day, type:int, comment:null)], 


这 个 输出 缺少 了 一 个 非常 重要 的 信息 ， 那 就 是 分 区 数据 实际 存在 
的 路 径 。 这 里 有 一 个 路 径 字 段 ， 但 是 该 字段 仅仅 表示 如 果 表 是 管理 表 
其 会 使 用 到 的 Hive 默 认 的 目 隶 。 不 过 ， 我 们 可 以 通过 如 下 方式 查看 到 
分 区 数据 所 在 的 路 径 : 


hive> DESCRIBE EXTENDED log_ messages PARTITION (year=2012, month=1, day=2); 


Jocation:s3n://ourbucket/10gs/2011/01/02, 


我 们 通常 会 使 用 分 区 外 部 表 ， 因 为 它 具 有 非 淀 多 的 优 操 ， 例 如 训 
辑 数 据 管 理 、 高 性 能 的 查询 等 。 


ALTER TABLE ... ADD PARTITION 语 句 并 非 只 有 对 外 部 表 才 能 
够 使 用 。 对 于 管理 表 ， 当 有 分 区 数据 不 是 由 我 们 之 前 讨论 过 的 LOAD 
和 INSERT 语 句 产 生 时 ， 用 户 同样 可 以 使 用 这 个 命令 指定 分 区 路 径 。 用 


户 需 要 记 住 并 非 所 有 的 表 数 据 都 是 放 在 通常 的 Hive“warehouse” 目 孙 下 
的 ， 同 时 当 删 除 管 理 表 时 ， 这 些 数 据 不 会 连 市 被 删除 挥 ! 因此 ， 从 “ 理 
智 的 ”角度 来 看 ， 是 否 敢于 对 管理 表 使 用 这 个 功能 是 一 个 问题 。 


4.4.2” 目 定义 表 的 存储 格式 


在 第 3.3 节 “文本 文件 数据 编码 ”中 ， 我 们 谈论 过 Hive 的 默认 存储 格 
式 是 文本 文件 格式 ， 这 个 也 可 以 通过 可 选 的 子 句 STORED AS 
TEXTFILE 显 式 指 定 ， 同 时 用 户 还 可 以 在 创建 表 时 指定 各 种 各 样 的 分 
隅 符 。 这 里 我 们 重新 展示 下 之 前 讨论 过 的 那个 employees 表 : 


CREATE TABLE employees ( 
name STRING, 
salary FLOAT, 
subordinates ARRAY<STRING>, 
deductions MAP<STRING, FLOAT>, 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> 


) 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\Q001'" 
COLLECTION ITEMS TERMINATED BY '\002'" 
MAP KEYS TERMINATED BY '\003 

LINES TERMINATED BY '\n' 

STORED AS TEXTFILE; 


TEXTFILE 意 味 着 所 有 字段 都 使 用 字母 、 数 字 、 字 和 从 编码 ， 包 括 
那些 国际 字符 集 ， 尽 管 我 们 可 以 发 现 Hive 默 认 是 使 用 不 可 见 字 符 来 作 
为 “终结 者 ”( 分 隔 符 ) 的 。 使 用 TEXTFILE 就 意味 着 ， 每 一 行 被 认为 
是 一 个 单独 的 记录 。 


用 户 可 以 将 TEXTFILE 替 换 为 其 他 Hive 所 文 持 的 内 置 文件 格式 ， 
包括 SEQUENCEFILE 和 RCEFILE， 这 两 种 文件 格式 都 是 使 用 二 进 制 编 
码 和 压缩 (可 选 ) 来 优化 磁盘 空间 使 用 以 及 1/ OO 带宽 性 能 的 。 这 些 文 
件 格 式 在 和 将 会 有 更 详细 的 介绍 。 


对 于 记录 是 如 何 被 编码 成 文件 的 ， 以 及 列 是 如 何 被 编码 为 记录 
的 ，Hive 指 出 了 它们 之 间 的 不 同 。 用 户 可 以 分 别 目 定义 这 些 行为 。 


记录 编码 是 通过 一 个 inputformat 对 象 来 控制 的 〈 例 如 TEXTFILE 后 
面 的 Java 代 码 实现 ) 。Hive 使 用 了 一 个 名 为 
org.apache.hadoop.mapred.TextInputFormat 的 Java 类 (编译 后 的 模 
块 ) 。 如 果 用 户 不 熟悉 Java 的 话 ， 这 种 点 分 割 的 命名 语法 表明 了 包 的 


一 个 分 层 的 树 形 命名 空间 ， 这 个 结构 和 Java 代 码 的 目录 结构 是 对 应 
的 。 最 后 一 个 名 字 ，TextInputFormat， 是 位 于 最 顶层 包 mapred 下 的 一 
个 类 。 


记录 的 解析 是 由 序列 化 器 / 反 序列 化 器 (或 者 缩写 为 SerDe) 来 控 
制 的 。 对 于 TEXTFILE 和 我 们 在 第 3 章 讨论 的 编码 以 及 上 面 我 们 所 重申 
的 例子 ，Hive 所 使 用 的 SerDe 是 另外 一 个 被 称 为 
org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 的 Java 类 。 


为 了 保持 完整 性 ，Hive 还 使 用 一 个 叫做 outputformat 的 对 象 来 将 查 
询 的 输出 写 入 到 文件 中 或 者 输出 到 控制 台 。 对 于 TEXTFILE， 用 于 输 
出 的 Java 类 名 为 


org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat ° 


提示 


Hive 使 用 一 个 inputformat 对 象 将 输入 流 分 割 成 记录 ， 人 然后 使 
用 一 个 outputformat 对 象 来 将 记录 格式 化 为 输出 流 (例如 查询 的 输 
出 结果 ) ， 再 使 用 一 个 SerDe 在 读数 据 时 将 记录 解析 成 列 ， 在 写 数 
据 时 将 列 编 码 成 记录 。 在 第 15 章 我 们 将 对 此 展开 更 深入 的 讨论 。 


用 户 还 可 以 指定 第 三 方 的 输入 和 输出 格式 以 及 SerDe， 这 个 功能 
许 用 户 目 定义 Hive 本 吴 不 文 持 的 其 他 广泛 的 文件 格式 。 


这 里 有 一 个 使 用 了 自 定 义 SerDe、 输 入 格式 和 输出 格式 的 完整 的 例 
子 ， 其 可 以 通过 Avro 协 议 访问 这 些 文件 ， 第 5.11 广 “AvroHive SerDe” 中 
将 会 介绍 到 Avro 协议 : 


CREATE TABLE kst 

PARTITIONED BY (ds string) 

ROW FORMAT SERDE 'com.linkedin.haivvreo.AvroSerDe' 

WITH SERDEPROPERTIES ('schema.url'='http://schema_ provider/kst.avsc') 


STORED AS 
INPUTFORMAT 'com.1linkedin.haivvreo.AvroContainerIinputFormat' 
OUTPUTFORMAT "com,1Linkedin.haivvreo,AvrocontaineroutputFormat ' ， 


ROW FORMAT SERDE ... 指 定 了 使 用 的 SerDe。Hive 提 供 了 WITH 
SERDEPROPERTIES 功 能 ， 人 允许 用 户 传 递 配 置信 息 给 SerDe。Hive 本 刁 


并 不 知晓 这 些 属 性 的 含义 ， 需 要 SerDe 去 决定 这 些 属 性 所 代表 的 含义 。 
需要 注意 的 是 ， 每 个 属性 名 称 和 值 都 应 该 是 市 引号 的 字符 串 。 


STORED AS INPUTFORMAT ... OUTPUTFORMAT ... 子 名 分别 指 
定 了 用 于 输入 格式 和 输出 格式 的 Java 类 。 如 果 要 指定 ， 用 户 必须 对 输 
入 格式 和 输出 格式 都 进行 指定 。 


需要 注意 的 是 ，DESCRIBE EXTENDED table 命 令 会 在 DETAILED 
TABLE INFORMATION 部 分 列举 出 输入 和 输出 格式 以 及 SerDe 和 SerDe 
所 目 带 的 属性 信息 。 对 于 我 们 的 例子 ， 我 们 可 以 查看 到 如 下 信息 : 


hive> DESCRIBE EXTENDED kst 


inputFormat:com.1linkedin.haivvreo.AvroCcontainerIinputFormat, 
outputFormat:com.1linkedin.haivvreo.AvroContainerOutputFormat, 


serdeInfo:SerDeInfo(name:null, 
serializationLib:com.linkedin.haivvreo.AvroSerDe, 
parameters:{schema.url=http://schema_provider/kst.avsc}) 


最 后 ， 还 有 一 些 额 外 的 CREATE TABLE 子 句 来 更 详细 地 描述 数据 
期 望 是 按照 什么 样子 存储 的 。 我 们 重新 扩展 下 在 第 4.3.2 节 “外 部 表 ” 中 
使 用 到 的 stocks 表 : 


CREATE EXTERNAL TABLE IF NOT EXISTS stocks ( 
exchange STRING, 
symbol STRING, 
ymd STRING, 
price_open FLOAT, 
price_high FLOAT, 
price_low FLOAT, 
price_close FLOAT, 


volume INT, 
price_ad]j_close FLOAT) 
CLUSTERED BY (exchange, symbol) 
SORTED BY (ymd ASC) 
INTO 96 BUCKETS 


ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
LOCATION '/data/stocks ' ; 


CLUSTERED BY ... INTO ... BUCKETS 子 句 还 可 以 后 接 一 个 可 
选 的 SORTED BY ... 子 句 ， 用 来 优化 某 些 特定 类 型 的 查询 ， 在 第 9.6 
节 *“ 分 桶 表 数 据 存储 "中 将 会 更 详细 地 进行 讨论 。 


4.5 ”删除 表 


Hive 支 持 和 SQL 中 DROP TABLE 命令 类 似 的 操作 : 


DROP TABLE IF EXISTS employees; 


可 以 选择 是 否 使 用 IF EXITST 天 键 字 。 如 有 果 没 有 使 用 这 个 关键 字 
而 且 表 并 不 存在 的 话 ， 那 么 将 会 抛 出 一 个 错误 信息 。 


对 于 管理 表 ， 表 的 元 数据 信息 和 表 内 的 数据 都 会 被 删除 。 


a 
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事实 上 ， 如 果 用 户 开启 了 Hadoop 回 收 站 功能 (这 个 功能 默认 
是 关闭 的 ) ， 那 么 数据 将 会 被 转移 到 用 户 在 分 布 式 文件 系统 中 的 
用 户 根 目 孙 下 的 .Trash 目 未 下 ， 也 就 是 HDFS 中 
的 /user/$USER/.Trash 目 录 。 如 果 想 开启 这 个 功能 ， 只 需要 将 配置 
属性 fs.trash.interval 的 值 设置 为 一 个 合理 的 正 整数 即 可 。 这 个 值 
是 “回收 站 检查 点 * 则 的 时 间 间 隔 ， 单 位 是 分 钟 。 因 此 如 果 设 置 值 
为 1440， 那 么 就 表示 是 24 小 时 。 不 过 并 不 能 保证 所 有 的 分 布 式 系 
统 以 及 所 有 版 本 都 是 支持 的 这 个 功能 的 。 如 果 用 户 不 小 心 删除 了 
一 张 存储 着 重要 数据 的 管理 表 的 话 ， 那 么 可 以 先 重建 表 ， 然 后 重 
建 所 需要 的 分 区 ， 再 从 .Trash 目 好 中 将 误 删 的 文件 移动 到 正确 的 文 
件 目录 下 (使 用 文件 系统 命令 ) 来 重新 存储 数据 。 


i 对 于 外 部 表 ， 表 的 元 数据 信息 会 被 删除 ， 但 是 表 中 的 数据 不 会 被 
| 除 。 


4.6 ”修改 表 


大 多 数 的 表 属 性 可 以 通过 ALTER TABLE 语 句 来 进行 修改 。 这 种 操 
作 会 修改 元 数据 ， 但 不 会 修改 数据 本 身 。 这 些 语句 可 用 于 修改 表 模 式 
中 出 现 的 错误 、 改 变 分 区 路 径 〈 在 第 4.4.1 节 “外 部 分 区 表 ” 中 有 讨论 
过 ) ， 以 及 其 他 一 些 操 作 。 
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TS gs 
ALTER TABLE 仅 仅 会 修改 表 元 数据 ， 表 数据 本 号 不 会 有 任何 
修改 。 需 要 用 户 上 自己 确认 所 有 的 修改 都 和 真实 的 数据 是 一 致 的 。 
4.6.1 表 重 命名 
使 用 以 下 这 个 语句 可 以 将 表 log_messages 重 命名 为 logmsgs: 
4.6.2 增加、 修改 和 删除 表 分 区 
正如 我 们 前 面 所 见 到 的 ，ALTER TABLE table ADD PARTITION 


… 语句 用 于 为 表 (通常 是 外 部 表 ) 增加 一 个 新 的 分 区 。 这 里 我 们 增加 
可 提供 的 可 选项 ， 然 后 多 次 重复 前 面 的 分 区 路 径 语句 : 


ALTER TABLE log messages ADD IF NOT EXISTS 
PARTITION (year = 2011，month = 1, day = 1) LOCATION '/l0gs/2011/01/01'" 
PARTITION (year = 2011，month = 1, day = 2) LOCATION '/l0gs/2011/01/02" 


PARTITION (year = 2011, month = 1, day = 3) LOCATION '/1ogs/2011/01/03 
ne 


当 使 用 Hive v0.8.0 或 其 后 的 版 本 时 ， 在 同一 个 查询 中 可 以 同时 增 
加 多 个 分 区 。 一 如 既往 ，IF NOT EXISTS 也 是 可 选 的 ， 而 且 含 义 不 


『 ea | 
| 
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Hive v0.7.* 版 本 允许 用 户 指 定 多 个 分 区 ， 但 是 实际 上 只 会 使 
用 第 一 个 指定 的 分 区 ， 而 将 其 他 的 分 区 默认 省 略 挤 了 ! 其 替代 方 
案 是 ， 对 每 一 个 分 区 都 使 用 ALTER STATEMENT 语 名 。 


同时 ， 用 户 还 可 以 通过 高 效 地 移动 位 置 来 修改 某 个 分 区 的 路 径 : 


ALTER TABLE lJog_messages PARTITION(year = 2011，month = 12, day = 2) 


SET LOCATION 's3n://ourbucket/l10gs/2011/01/02'，; 


这 个 命令 不 会 将 数据 从 旧 的 路 径 转 移 走 ， 也 不 会 删除 旧 的 数据 。 
最 后 ， 用 户 可 以 通过 如 下 语句 删除 某 个 分 区 : 


ALTER TABLE lJog_messages DROP IF EXISTS PARTITION(year = 2011, month = 12, day = 
2); 


按照 常规 ， 上 面 语句 中 的 IF EXISTS 子 句 是 可 选 的 。 对 于 管理 
， 即 使 是 使 用 ALTER TABLE ... ADD PARTITION 语句 增加 的 分 
， 分 区 内 的 数据 也 是 会 同时 和 元 数据 信息 一 起 被 删除 的 。 对 于 外 部 
， 分 区 内 数据 不 会 被 删除 。 

还 有 其 他 一 些 和 分 区 相关 的 ALTER 语 句 将 会 在 第 4.6.7” 和 第 4.6.8 
广 “ 中 进行 讨论 。 


4.6.3 ”修改 列 信息 
_ 用 户 可 以 对 某 个 字段 进行 重 命名 ， 并 修改 其 位 置 、 类 型 或 者 注 


释 


并 区 潍 


ALTER TABLE lJ]og_messages 
CHANGE COLUMN hms hours_minutes_seconds INT 


COMMENT 'The hours, minutes, and seconds part of the timestamp 
AFTER severity; 


即使 字段 名 或 者 字段 类 型 没有 改变 ， 用 户 也 需要 完全 指定 旧 的 子 


段 名 ， 并 给 出 新 的 字段 名 及 新 的 字段 类 型 。 关 键 字 COLUMN 和 
COMMENT 子 句 都 是 可 选 的 。 前 面 所 演示 的 例子 中 ， 我 们 将 字段 转移 
到 severity 字 段 之 后 。 如 果 用 户 想 将 这 个 字段 移动 到 第 一 个 位 置 ， 那 么 
只 需要 使 用 FIRST 关 键 字 替代 AFTER other_column 子 句 即 可 。 


和 通常 一 样 ， 这 个 命令 只 会 修改 元 数据 信息 。 如 有 果 用 户 移 动 的 是 
字段 ， 那 么 数据 也 应 当 和 新 的 模式 匹配 或 者 通过 其 他 某 些 方法 修改 数 
据 以 使 其 能 够 和 模式 匹配 。 

4.6.4 ”增加 列 


用 户 可 以 在 分 区 字段 之 前 增加 新 的 字段 到 已 有 的 字段 之 后 。 


ALTER TABLE log_messages ADD COLUMNS ( 


app_name STRING COMMENT 'Application name', 
session_id LONG COMMENT 'The current session id' )， 


COMMENT 子 句 和 通常 一 样 ， 是 可 选 的 。 如 果 新 增 的 字段 中 有 某 
个 或 多 个 字段 位 置 是 错误 的 ， 那 么 需要 使 用 ALTER COULME 表 和 名 
CHANGE COLUMN 语 句 逐 一 将 字段 调整 到 正确 的 位 置 。 


4.6.5 ”删除 或 者 奉 换 列 
下 面 这 个 例子 移 除 了 之 前 所 有 的 字段 并 重新 指定 了 新 的 子 段 : 


ALTER TABLE lJ]og_messages REPLACE COLUMNS ( 
hours_mins_secs INT COMMENT 'hour, minute, seconds from timestamp', 


severity STRING COMMENT 'The message severity' 
message STRING COMMENT 'The rest of the message'); 


这 个 语句 实际 上 重 命名 了 之 前 的 hms 字 段 并 且 从 之 前 的 表 定 义 的 
模式 中 移 除了 字段 server 和 process_id。 因 为 是 ALTER 语 句 ， 所 以 只 
表 的 元 数据 信息 改变 了 


REPLACE 语 句 只 能 用 于 使 用 了 如 下 2 种 内 置 SerDe 模 块 的 表 : 
DynamicSerDe 或 者 MetadataTypedColumnsetSerDe 。 问 想 一 下 ，SerDe 
决定 了 记录 是 如 何 分 解 成 字段 的 〈《 反 序列 化 过 程 ) 以 及 字段 是 如 何 写 
入 到 存储 中 的 〈 序 列 化 过 程 ) 。 第 15 章 有 关于 SerDe 更 详细 的 信息 。 


4.6.6 ”修改 表 属 性 


用 户 可 以 增加 附加 的 表 属 性 或 者 修改 已 经 存在 的 属性 ， 但 是 无 法 
删除 属性 : 


ALTER TABLE log messages SET TBLPROPERTIES ( 


"notes' = 'The process id is no longer captured; this column is always NULL'); 


4.6.7 ”修改 存储 属性 
有 几 个 ALITER TABLE 语句 用 于 修改 存储 格式 和 SerDe 属 性 。 


下 面 这 个 语句 将 一 个 分 区 的 存储 格式 修改 成 了 SEQUENCE 
FILE， 我 们 在 第 4.3 节 “创建 表 ” 中 讨论 过 存储 格式 (第 11.5 节 “sequence 


fie 存 储 格 式 ? 和 第 15 章 有 更 详细 的 信息 ) : 


ALTER TABLE 1og_messages 
PARTITION(year = 2012, month = 1, day = 1) 
SET FILEFORMAT SEQUENCEFILE,; 


如 果 表 是 分 区 表 ， 那 么 需要 使 用 PARTITION 子 句 。 


用 户 可 以 指定 一 个 新 的 SerDe， 并 为 其 指定 SerDe 属 性 ， 或 者 修改 
已 经 存在 的 SerDe 的 属性 。 下 面 这 个 例子 演示 的 表 使 用 了 一 个 名 为 
com.example.JSONSerDe 的 Java 类 来 处 理 记录 使 用 JSON 编 码 的 文件 : 


ALTER TABLE table_ using_JSON_storage 
SET SERDE 'com.example.JSONSerDe' 
WITH SERDEPROPERTIES ( 


"prop1' = 'valuel1', 
"prop2' = 'value2'); 


SERDEPROPERTIES 中 的 属性 会 被 传递 给 SerDe 模 块 (本 例 中 ， 也 
就 是 com.example. 
JSONSerDe 这 个 Java 类 ) 。 需 要 注意 的 是 ， 属 性 名 (例如 prop1) 和 属 
性 值 〈 例 如 value1) 都 应 当 是 带 引 号 的 字符 串 。 


SERDEPROPERTIES 这 个 功能 是 一 种 方便 的 机 制 ， 它 使 得 SerDe 的 
各 种 实现 都 允许 用 户 进 行 自 定义 。 第 15.10 节 “JSON SerDe” 中 我 们 将 可 
以 看 到 一 个 真实 的 JSON SerDe 例 子 ， 以 及 它 是 如 何 使 用 
SERDEPROPERTIES。 


下 面 这 个 例子 演示 了 如 何 同 一 个 已 经 存在 着 的 SerDe 增 加 新 的 
SERDEPROPERTIES 属 性 : 


ALTER TABLE table_using_JSON_storage 
SET SERDEPROPERTIES ( 


"prop3' = "Value3 '， 
"prop4' = 'value4'); 


我 们 可 以 修改 在 第 4.3 节 “创建 表 ” 中 讲 到 的 存储 属性 : 


ALTER TABLE stocks 

CLUSTERED BY (exchange, SymbolJl) 
SORTED BY (Symbol) 

INTO 48 BUCKETS,; 


SORTED BY 子 句 是 可 选 鸭 ， 但 是 CLUSTER BY 和 INTO ... 
BUCKETS 子 句 是 必 选 的 。 (在 第 9.6 节 “分 桶 表 数 据 存储 ”中 将 会 更 详 
细 介 绍 数 据 分 桶 。) 


4.6.8 ”众多 的 修改 表 语 句 


在 第 12.3.2 广 “执行 钧 子 ” 中 ， 我 们 将 讨论 一 种 为 各 种 操作 增加 执 
行 “ 钧 子 ” 的 技巧 。ALTER TABLE ... TOUCH 语句 用 于 触发 这 些 钩子 : 


ALTER TABLE lJ]og_messages TOUCH 
PARTITION(year = 2012, month = 1, day = 1); 


PARTITION 子 句 用 于 分 区 表 。 这 种 语句 的 一 个 典型 应 用 场景 是 ， 
当 表 中 存储 的 文件 在 Hive 之 外 被 修改 了 ， 就 会 触发 钩子 的 执行 。 例 
如 ， 某 个 脚本 往 分 区 2012/0101 中 写 入 了 新 的 日 志 信 息 文 件 ， 可 以 在 
Hive CLI 中 进行 下 面 的 调用 : 


hive -e 'ALTER TABLE 1og_messages TOUCH PARTITION(year = 2012，month = 1, day = 
1);" 


如 有 果 表 或 者 分 区 并 不 存在 ， 那 么 这 个 语句 也 不 会 创建 表 或 者 分 
区 。 在 这 种 情况 下 要 使 用 合适 的 创建 策略 。 


ALTER TABLE ... ARCHIVE PARTITION 语 句 会 将 这 个 分 区 内 的 
文件 打 成 一 个 Hadoop 压 缩 包 (HAR) 文件 。 但 是 这 样 仅 仅 可 以 降低 文 
件 系统 中 的 文件 数 以 及 减轻 NameNode 的 压力 ， 而 不 会 减少 任何 的 存储 
空间 〈 例 如 ， 通 过 压缩 ) : 


ALTER TABLE lJog_messages ARCHIVE 
PARTITION(year = 2012, month = 1, day = 1); 


使 用 UNARCHIVE 替 换 ARCHIVE 就 可 以 反 向 操作 。 这 个 功能 只 能 
用 于 分 区 表 中 独立 的 分 区 。 


最 后 ，Hive 提 供 了 各 种 保护 。 下 面 的 语句 可 以 分 别 防止 分 区 被 删 
除 和 被 查询 : 


ALTER TABLE Jog_messages 
PARTITION(year = 2012, month = 1, day = 1) ENABLE NO_DROP; 


ALTER TABLE 1og_messages 
PARTITION(year = 2012, month = 1, day = 1) ENABLE OFFLINE; 


使 用 ENABLE 替 换 DISABLE 可 以 达到 反 辐 操作 的 目的 。 这 些 操 作 
也 都 不 可 用 于 非 分 区 表 。 


第 5 章 HiveQL: 数据 操作 


本 章 将 继续 讨论 HiveQL ， 也 就 是 Hive 查 询 语言 ， 并 关注 于 辐 表 中 
装载 数据 和 从 表 中 抽取 数据 到 文件 系统 的 数据 操作 语言 部 分 。 


本 章 中 ， 当 我 们 讨论 通过 查询 语言 生成 目标 表 时 ， 大 量 使 用 到 了 
SELECT ... WHERE 语句 。 那 么 ， 我 们 为 什么 不 先 讲 述 SELECT .…. 
WHERE 语句 ， 而 直到 下 一 章 也 就 是 才 会 阐述 呢 ? 


既然 我 们 刚 讨论 了 如 何 创建 表 ， 我 们 就 会 期 望 先 解决 随 之 而 来 的 
下 一 个 问题 ， 即 如 何 装载 数据 到 这 些 表 中 ， 然 后 我 们 才能 有 些 东 西 供 
查询 吧 ! 我 们 假定 用 户 已 经 理解 了 SQL 的 基础 知识 ， 因 此 这 些 语句 对 
Sm 。 如 果 用 户 对 此 并 不 熟悉 ， 那 么 请 到 获取 相关 更 
十 细 晶 JE” 


5.1 加 管 理 表 中 获 载 数据 


既然 Hive 没 有 行 级 别 的 数据 插入 、 数 据 更 新 和 删除 操作 ， 那 么 往 
表 中 装载 数据 的 唯一 途径 吕 是 使 用 一 种 "大 量 ” 的 数据 装载 操作 。 或 者 
通过 其 他 方式 仅仅 将 文件 写 入 到 正确 的 目录 下 。 


在 第 4.4 广 “分 区 表 、 管 理 表 ”中 我 们 已 经 看 到 了 一 个 如 何 北 载 数据 
到 管理 表 中 的 例子 ， 这 里 我 们 稍微 对 其 增加 些 内 容重 新 进行 展示 。 我 
们 新 增 了 一 个 关键 字 OVERWRITE: 


LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' 
OVERWRITE INTO TABLE employees 


PARTITION (country = 'US', state = 'CA'); 


如 果 分 区 目录 不 存在 的 话 ， 这 个 命令 会 先 创建 分 区 目录 ， 然 后 再 


将 数据 拷贝 到 该 目录 下 。 
如 果 目 标 表 是 非 分 区 表 ， 那 么 语句 中 应 该 省 略 PARTITION 子 句 。 


通常 情况 下 指定 的 路 径 应 该 是 一 个 目录 ， 而 不 十 单 个 独立 的 文 
件 。Hive 会 将 所 有 文件 都 拷贝 到 这 个 目录 中 。 这 使 得 用 户 将 更 方便 地 


组 织 数 据 到 多 文件 中 ， 同 时 ， 在 不 修改 Hive 脚 本 的 前 提 下 修改 文件 命 
了 “不 官 怕 么 样 ， 文 件 都 会 被 拷贝 到 目标 表 路 径 下 而 且 文 件 名 会 
本 个 和 父 。 


如 果 使 用 了 LOCAL 这 个 关键 字 ， 那 么 这 个 路 径 应 该 为 本 地 文件 系统 
径 。 数 据 将 会 被 拷贝 到 目标 位 置 。 如 果 省 上 略 挥 LOCAL 关 键 子 ， 那 么 这 
个 路 径 应 该 十 分 布 式 文件 系统 中 的 路 人 径 。 这 种 情况 下 ， 数 据 是 从 这 个 
路 径 转 移 到 目标 位 置 的 。 


Es 


a、 
DO 本 wii 
4 提示 


LOAD DATA LOCAL... 棱 内 本 地 数据 到 位 于 分 布 式 文件 系统 
上 的 目标 位 置 ， 而 LOAD DATA ...( 也 就 是 没有 使 用 LOCAL) 苇 殉 
数据 到 目标 位 置 。 


之 所 以 会 存在 这 种 差异 ， 是 因为 用 户 在 分 布 式 文件 系统 中 可 能 
不 需要 重复 的 多 份 数 据 文件 拷贝 。 


同时 ， 因 为 文件 是 以 这 种 方式 移动 的 ，Hive 要 求 源 文件 和 目标 文 
件 以 及 目录 应 该 在 同一 个 文件 系统 中 。 例 如 ， 用 户 不 可 以 使 用 LOAD 
et (转移 ) 到 另 一 个 集群 的 
HDFS 中 。 


指定 全 路 人 径 会 具有 更 好 的 鲁 棱 性 ， 但 也 同样 支持 相对 路 径 。 当 使 
用 本 地 模式 执行 时 ， 相 对 路 径 相 对 的 是 当 Hive CLI 启 动 时 用 户 的 工作 
目 示 。 对 于 分 布 式 或 者 伪 分 布 式 模式 ， 这 个 路 径 解读 为 相对 于 分 布 式 
文件 系统 中 用 户 的 根 目 录 ， 该 日 录 在 HDFS 和 MapRFS 中 默认 
为 /user/$USER 。 


如 果 用 户 指定 了 OVERWRITE 关 键 字 ， 那 么 目标 文件 夹 中 之 前 存 
在 的 数据 将 会 被 先 删除 挤 。 如 果 没 有 这 个 关键 字 ， 仅 仅 会 把 新 增 的 文 
件 增加 到 目标 文件 夹 中 而 不 会 删除 之 前 的 数据 。 然 而 ， 如 果 目 标 文 件 
夹 中 已 经 存在 和 装载 的 文件 同名 的 文件 ， 那 么 日 的 同名 文件 将 会 被 覆 
盖 重 写 。〈 译 者 注 : 事实 上 如 果 没 有 使 用 OVERWRITE 关 键 字 ， 而 目 
标 文 件 夹 下 已 经 存在 同名 的 文件 时 ， 会 保留 之 前 的 文件 并 且 会 重 命名 
新 文件 为 “之 前 的 文件 名 _ 序 列 号 ”) 


Hive v0.9.0 版 本 之 前 的 版 本 中 存在 如 下 bug: 如 果 没 有 使 用 
OVERWRITE 关 键 字 ， 目 标 文件 夹 中 已 经 存在 和 转载 文件 同名 的 
文件 的 话 ， 之 前 的 文件 会 被 覆盖 重 写 。 因 此 会 产生 数据 丢失 。 这 
个 bug 在 v0.9.0 版 本 中 已 经 修复 了 。 


如 果 目 标 表 是 分 区 表 那 么 需要 使 用 PARTITION 子 句 ， 而 且 用 户 还 
必须 为 每 个 分 区 的 键 指定 一 个 值 。 


按照 之 前 所 说 的 那个 例子 ， 数 据 现 在 将 会 存放 到 如 下 这 个 文件 夹 


hdfs://master_server/user/hive/warehouse/mydb.db/employees/country=US/state=CA 


对 于 INPATH 子 句 中 使 用 的 文件 路 径 还 有 一 个 限制 ， 那 就 是 这 个 路 
径 下 不 可 以 包含 任何 文件 夹 。 


Hive 并 不 会 验证 用 户 装 载 的 数据 和 表 的 模式 是 否 匹配 。 人 然而， 
Hive 会 验证 文件 格式 是 否 和 表 结 构 定 义 的 一 致 。 例 如 ， 如 有 果 表 在 创建 
时 定义 的 存储 格式 是 SEQUENCEFILE， 那 么 转载 进去 的 文件 也 应 该 是 
sequencefile 格 式 的 才 行 。 


5.2 ”通过 查询 语句 向 表 中 插入 数据 


INSERT 语 名 允许 用 户 通 过 查询 语句 回 目 标 表 中 插入 数据 。 依 旧 使 
用 前 划 中 表 employees 作 为 例子 ， 这 里 有 一 个 俄 北 俄 州 的 例子 ， 这 里 事 
先 假设 男 一 张 名 为 staged_employees 的 表 里 已 经 有 相关 数据 了 。 在 表 
staged_employees 中 我 们 使 用 不 同 的 名 字 来 表示 国家 和 州 ， 分 别称 作 
cnty 和 st， 这 样 做 的 原因 稍 后 会 进行 说 明 。 


INSERT OVERWRITE TABLE employees 
PARTITION (country = 'US', state = 'OR') 


SELECT * FROM staged_ employees se 
WHERE se.cnty = 'US' AND se.st = 'OR',; 


这 里 使 用 了 OVERWRITE 关 键 字 ， 因 此 之 前 分 区 中 的 内 容 (如 果 
是 非 分 区 表 ， 就 是 之 前 表 中 的 内 容 ) 将 会 被 覆盖 掉 。 


这 里 如 果 没 有 使 用 OVERWRITE 关 键 字 或 者 使 用 INTO 关 键 字 替换 
掉 它 的 话 ， 那 么 Hive 将 会 以 追加 的 方式 写 入 数据 而 不 会 覆盖 掉 之 前 已 
容 。 这 个 功能 只 有 Hive v0.8.0 版 本 以 及 之 后 的 版 本 中 才 


这 个 例子 展示 了 这 个 功能 非常 有 用 的 一 个 常见 的 场景 ， 即 : 数据 
已 经 存在 于 某 个 目录 下 ， 对 于 Hive 来 说 其 为 一 个 外 部 表 ， 而 现在 想 将 
其 导入 到 最 终 的 分 区 表 中 。 如 果 用 户 想 将 源 表 数据 导入 到 一 个 具有 不 
同 记录 格式 (例如 ， 具 有 不 同 的 字段 分 割 符 ) 的 目标 表 中 的 话 ， 那 么 
使 用 这 种 方式 也 是 很 好 的 。 


然而 ， 如 果 表 staged_employees 非 常 大 ， 而 且 用 户 需 要 对 65 个 州都 
执行 这 些 语句 ， 那 么 也 就 意味 这 需要 扫描 staged_employees 表 65 次 |! 
Hive 提 供 了 男 一 种 INSERT 语 法 ， 可 以 只 扫描 一 次 输入 数据 ， 然 后 按 多 
0 。 如 下 例子 显示 了 如 何 为 3 个 州 创建 表 employees 分 
义 : 


FROM staged employees se 
INSERT OVERWRITE TABLE employees 
PARTITION (country = 'US', state = 'OR') 
SELECT * WHERE se.cnty = 'US' AND se.st = 'OR' 
INSERT OVERWRITE TABLE employees 


PARTITION (country = 'US', state = 'CA') 

SELECT * WHERE se.cnty = 'US' AND se.st = 'CA! 
INSERT OVERWRITE TABLE employees 

PARTITION (country = 'US', state = 'IL') 

SELECT * WHERE se.cnty = 'US' AND se.st = 'IL'; 


这 里 我 们 使 用 了 缩 排 使 得 每 组 句子 看 上 去 更 清楚 。 从 
staged_employees 表 中 读 取 的 每 条 记录 都 会 经 过 一 条 SELECT ... 
WHERE ... 句 子 进 行 判 断 。 这 些 句子 都 是 独立 进行 判断 的 ， 这 不 是 正 
... THEN ...ELSE ... 结 构 ! 


事实 上 ， 通 过 使 用 这 个 结构 ， 源 表 中 的 某 些 数 据 可 以 个 写 入 目标 
表 的 多 个 分 区 中 或 痢 不 个 写 入 任 一 个 分 区 中 


如 果 某 条 记录 是 满足 某 个 SELECT ... WHERE ... 语 句 的 话 ， 那 么 
这 条 记录 就 会 被 写 入 到 指定 的 表 和 分 区 中 。 人 简单 明了 地 说 ， 每 个 


INSERT 子 句 ， 只 要 有 需要 ， 都 可 以 插入 到 不 同 的 表 中 ， 而 那些 目标 表 
可 以 是 分 区 表 也 可 以 是 非 分 区 表 。 


因此 ， 输 入 的 某 些 数 据 可 能 输出 到 多 个 输出 位 置 而 其 他 一 些 数据 
可 能 束 被 删除 挥 了 ! 


当然 ， 这 里 可 以 混合 使 用 INSERT OVERWRITE 句 式 和 INSERT 
INTO 句 式 。 


动态 分 区 插入 


前 面 所 说 的 语法 中 还 是 有 一 个 问题 ， 即 : 如 采 需 要 创建 非 冲 多 的 
分 区 ， 那 么 用 户 就 需要 写 非常 多 的 SQL ! 不 过 笠 运 的 是 ，Hive 提 供 了 
一 个 动态 分 区 功能 ， 其 可 以 基于 查询 参数 推 产 出 需要 创建 的 分 区 名 
称 。 相 比 之 下 ， 到 目前 为 止 我 们 所 看 到 的 都 是 静态 分 区 。 


请 看 如 下 对 前 面 例子 修改 后 的 句子 : 


INSERT OVERWRITE TABLE employees 
PARTITION (country, state) 
SELECT ..., se.cnty, se.st 

FROM staged employees se; 


Hive 根 据 SELECT 语 句 中 最 后 2 列 来 确定 分 区 字段 country 和 state 的 
值 。 这 就 是 为 什么 在 表 staged_employees 中 我 们 使 用 了 不 同 的 命名 ， 就 
是 为 了 强调 源 表 字段 值 和 输出 分 区 值 之 间 的 关系 是 根据 位 置 而 不 是 根 
据 命 名 来 匹配 的 。 


假设 表 staged_employees 中 共有 100 个 国家 和 州 的话 ， 执 行 完 上 面 
这 个 查询 后 ， 表 employees 就 将 会 有 100 个 分 区 ! 


用 户 也 可 以 混合 使 用 动态 和 静态 分 区 。 如 下 这 个 例子 中 指定 了 
country 字 段 的 值 为 静态 的 US， 而 分 区 字段 state 是 动态 值 : 
INSERT OVERWRITE TABLE employees 


PARTITION (country = 'US', state) 
SELECT ..., se.cnty, se.st 


FROM staged employees se 
WHERE se.cnty = 'US',; 


静态 分 区 键 必 须 出 现在 动态 分 区 键 之 前 。 


动态 分 区 功能 默认 情况 下 没有 开局。 开启 后 ， 默 认 是 以 “严格 ” 模 
式 执行 的 ， 在 这 种 模式 下 要 求 至 少 有 一 列 分 区 字段 是 静态 的 。 这 有 助 
于 阻止 因 设 计 错 误导 致 查询 产生 大 量 的 分 区 。 例 如 ， 用 户 可 能 错误 地 
使 用 时 间 惟 作为 分 区 字段， 然后 导致 每 秒 都 对 应 一 个 分 区 ! 而 用 户 也 
许 是 期 望 按照 天 或 者 按照 小 时 进行 划分 的 。 还 有 一 些 其 他 相关 属性 值 
用 于 限制 资源 利用 。 表 5-1 描 述 了 这 些 属性 。 


表 5-1 动态 分 区 属性 


设置 成 true， 表 示 
功能 


i , 设置 成 nonstrict， 表 示人 允许 
hive. .d .partition.mod trict 
ive.exec.dynamic.partition.mode stric 区 都 是 动态 的 


每 个 mapper 或 reducer 可 以 创建 的 
最 大 动态 分 区 个 数 。 如 果 某 个 
hive.exec.max.dynamic.partitions.pernode | 100 创建 大 于 这 


hive.exec.dynamic.partition false 


分 区 Ts 出 一 个 致 


一 个 动态 分 区 创建 语句 可 以 创建 

的 最 大 动态 分 区 个 数 。 如 果 超 过 

十 人 

hive.exec.max.dynamic.partitions 1000 这 个 值 则 会 抛 出 一 个 致命 错误 信 
息 、 


全 局 | 个 数 。 
hive.exec.max.created .files 100000 en 让， 如 站 这 


个 值 则 会 抛 出 一 个 致命 错误 信息 


因此 ， 作 为 例子 演示 ， 前 面 我 们 使 用 的 第 一 个 使 用 动态 分 区 的 例 
子 看 上 去 应 该 是 像 下 面 这 个 样子 的 ， 这 里 我 们 不 过 在 使 用 前 设置 了 一 
些 期 望 的 属性 : 


hive> set hive.exec.dynamic.partition=true; 
hive> set hive.exec.dynamic.partition.mode=nonstrict; 
hive> set hive.exec.max.dynamic.partitions.pernode=1000,; 


hive> INSERT OVERWRITE TABLE employees 
> PARTITION (country, state) 
> SELECT ..., se.cty, se.st 
> FROM staged_ employees se; 


5.3 ”单个 查询 语句 中 创建 表 并 加 载 数 据 


i 尸 同样 可 以 在 一 个 语句 中 完成 创建 表 并 将 查询 结果 载 入 这 个 表 
、 区 局 : 


CREATE TABLE ca_employees 

AS SELECT name, salary, address 
FROM employees 

WHERE se.state = 'CA'，; 


这 张 表 只 含有 employee 表 中 来 目 加 利 福 尼 亚 州 的 雇员 的 name、 
人 信息 。 新 表 的 模式 是 根据 SELECT 语句 来 生 
的 。 


人 这 个 功能 的 利 见 情况 是 从 一 个 大 的 宽 表 中 选取 部 分 需要 的 数 


这 个 功能 不 能 用 于 外 部 表 。 可 以 回想 下 使 用 ALTER TABLE 语 句 可 
以 为 外 部 表 “ 引 用 ”到 一 个 分 区 ， 这 里 本 身 没 有 进行 数据 “装载 *， 而 是 
将 元 数据 中 指定 一 个 指向 数据 的 路 径 。 


5.4 导出 数据 


我 们 如 何 从 表 中 导出 数据 呢 ? 如 采 数 据 文 件 恰 好 是 用 户 需 要 的 格 
式 ， 那 么 只 需要 简单 地 拷贝 文件 夹 或 者 文件 整 可 以 了 : 


否则 ， 用 户 可 以 使 用 INSERT ... DIRECTORY ...， 如 下 面 例 子 所 示 : 


INSERT OVERWRITE LOCAL DIRECTORY '/tmp/ca_employees' 
SELECT name, salary, address 


FROM employees 
WHERE se.state = 'CA'; 


关键 字 OVERWRITE 和 LOCAL 和 前 面 的 说 明 是 一 致 的 ， 路 径 格式 
也 和 通常 的 规则 一 致 。 一 个 或 者 多 个 文件 将 会 被 写 入 
到 /tmp/ca_employees， 具 体 个 数 取 决 于 调用 的 reducer 个 数 。 


这 里 指定 的 路 径 也 可 以 写成 全 URL 路 径 (例如 ，hdfs://master- 
server/tmp/ca_employees) 9 


不 管 在 源 表 中 数据 实际 是 怎么 存储 的 ，Hive 会 将 所 有 的 字段 序列 化 成 
字符 串 写 入 到 文件 中 。Hive 使 用 和 Hive 内 部 存储 的 表 相 同 的 编码 方式 
来 生成 输出 文件 。 


作为 提醒 ， 我 们 可 以 在 hive CLI 中 查看 结果 文件 内 容 : 


hive> ! ls /tmp/ca_employees,; 
000000_0 
hive> ! cat /tmp/payroll/000000_ 0 


John Doe100000.0201 San Antonio CircleMountain ViewCA94040 
Mary Smith80000.01 Infinity LoopCupertinoCA95014 


是 的 ， 文 件 名 是 000000_0。 如 果 有 两 个 或 者 多 个 reducer 来 写 输出 
的 话 ， es (例如 ， 
000001 1) 。 


如 上 输出 内 容 看 上 去 字段 间 没 有 分 隔 符 ， 这 是 因为 这 里 并 没有 把 
AA 和 AB 显 示 出 来 。 


和 癌 表 中 插入 数据 一 样 ， 用 户 也 是 可 以 通过 如 下 方式 指定 多 个 输 
出 文件 夹 目录 的 : 


FROM staged_ employees se 
INSERT OVERWRITE DIRECTORY '/tmp/or_employees' 


SELECT * WHERE se.cty = 'US' and se.st = 'OR' 
INSERT OVERWRITE DIRECTORY '/tmp/ca_employees' 


SELECT * WHERE se.cty = 'US' and se.st = 'CA' 
INSERT OVERWRITE DIRECTORY '/tmp/il_ employees' 
SELECT * WHERE se.cty = 'US' and se.st = 'IL'; 


对 于 定制 输出 的 数据 是 有 一 些 限制 的 (当然 ， 除 非 自 己 写 一 个 定 
制 的 OUTPUTFORMAT， 这 在 ”中 有 讲述 ) 。 为 了 格式 化 字段 ，Hive 提 


供 了 一 些 内 置 画 数 ， 其 中 包括 那些 用 于 字符 串 格 式 化 的 操作 、 例 如 转 
0 3 
Ro 


表 的 字段 分 隔 符 可 能 是 需要 考量 的 。 例 如 ， 如 采 其 使 用 的 是 稚 认 
的 AA 分 陋 符 ， 而 用 户 又 经 党 导出 数据 的 话 ， 那 么 可 能 使 用 喜 号 或 者 制 
表 键 作为 分 隔 符 会 更 合适 。 


另 一 种 变通 的 方式 是 定义 一 个 “临时 ?” 表 ， 这 个 表 的 存储 方式 配置 
成 期 望 的 输出 格式 〈 例 如 ， 使 用 制 表 键 作 为 字段 分 隅 符 ) 。 然 后 再 从 
这 个 I 临 时 表 中 查询 数据 ， 并 使 用 INSERT OVERWTITE DIRECTORY 将 
查询 结果 写 入 到 这 个 表 中 。 和 很 多 天 系 型 数据 库 不 同 的 是 ，Hive 中 没 
人 


第 6 章 ”HiveQL: 查询 


在 了 解 了 可 以 通过 多 种 方式 来 定义 和 格式 化 表 之 后 ， 让 我 们 来 学 
习 一 下 如 何 运 行 查 询 。 当 然 ， 我 们 将 假设 你 已 经 具备 了 SQL 的 相关 知 
识 。 为 了 说 明 一 些 概 念 我 们 已 经 使 用 了 一 些 查 询 ， 比 如 在 第 5 章 介绍 过 
的 加 载 碍 询 数据 到 其 他 表 中 的 操作 。 现 在 ， 我 们 将 完善 大 部 分 的 细 
玉 。 一 些 特殊 的 主题 将 会 在 以 后 的 其 他 章 万 中 进行 介绍 。 


对 于 具有 SQL 使 用 经 验 的 用 户 来 说 比较 熟悉 的 细节 我 们 将 进行 得 
很 快 ， 而 会 专注 于 其 和 HiveQL 有 何人 差异 ， 包 括 语 法 和 特性 的 老 异 ， 以 
及 对 性 能 的 影响 。 


6.1 SELECT... FROM 语 句 


SELECT 是 SQL 中 的 射影 算 子 。FROM 子 句 标识 了 从 哪个 表 、 视 图 
或 散 套 查询 中 选择 记录 〈 见 第 7 章 ) 


对 于 一 个 给 定 的 记录 ，SELECT 指 定 了 要 保存 的 列 以 及 输出 函数 
需要 调用 的 一 个 或 多 个 列 (例如 ， 像 count(*) 这 样 的 聚合 男 数 ) 。 我 们 
再 次 回想 下 之 前 说 明 过 的 分 区 employees 表 : 


CREATE TABLE employees ( 
name STRING, 
salary FLOAT, 
subordinates ARRAY<STRING>, 
deductions MAP<STRING, FLOAT>, 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> 


) 
PARTITIONED BY (country STRING, state STRING); 


我 们 假定 其 和 第 3.3 太 “文本 文件 数据 编码 ”中 所 介绍 的 具有 相同 的 


内 容 ， 也 就 是 在 美国 伊利 诺 伊 州 (缩写 为 IL) 中 有 4 名 员工 。 下 面 是 对 
这 个 表 进 行 的 查询 语句 以 及 其 输出 内 容 : 


hive> SELECT name, salary FROM employees; 
John Doe 100000.0 
Mary Smith 80000.0 
Todd Jones 70000.0 
Bill King 60000.0 


下 面 两 个 查询 是 等 价 的 。 第 2 个 版 本 使 用 了 一 个 表 别 名 e， 在 这 个 
查询 中 不 是 很 有 和 用， 但 是 如 果 查 询 中 含有 链接 操作 (参考 第 6.4 
访 OIN 语 句 ”) 的 话 ， 会 涉及 到 多 个 不 同 的 表 ， 那 就 很 有 用 了 。 


hive> SELECT name, salary FROM employees,; 
hive> SELECT e.name, e.salary FROM employees e; 


当 用 户 选 择 的 列 是 集合 数据 类 型 时 ，Hive 会 使 用 JSON (Java 脚 本 
对 象 表示 法 ) 语法 应 用 于 输出 。 首 先 ， 让 我 们 选择 subordinates 列 ， 该 
列 为 一 个 数组 ， 其 值 使 用 一 个 被 括 在 [...] 内 的 以 逗号 分 阳 的 列表 进行 
表示 。 注 意 ， 集 合 的 字符 串 元 素 是 加 上 引号 的 ， 而 基本 数据 类 型 
STRING 的 列 值 是 不 加 引号 的 。 


hive> SELECT name, subordinates FROM empJoyees ; 
John Doe [ "Mary Smith","Todd Jones"] 
Mary Smith ["Bill King"] 


Todd Jones [] 
Bill King [] 


deductions 列 是 一 个 MAP， 其 使 用 JSON 格 式 来 表达 map， 即 使 用 
一 个 被 括 在 {...} 内 的 以 逗号 分 隅 的 键 : 值 对 列表 进行 表示 : 


hive> SELECT name, deductions FROM employees; 

John Doe {"Federal Taxes":0.2,"State Taxes":0.05,"Insurance":0.1} 

Mary Smith {"Federal Taxes":0.2,"State Taxes":0.05,"Insurance":0.1} 

Todd Jones {"Federal Taxes":0.15,"State Taxes":0.03,"Insurance":0.1} 
Bill King {"Federal Taxes":0.15,"State Taxes":0.03,"Insurance":0.1} 


最 后 ，address 列 是 一 个 STRUCT， 其 也 是 使 用 JSON map 格 式 进 行 
表示 的 : 


hive> SELECT name, address FROM employees,; 

John Doe {"street":"1 Michigan Ave.","city":"Chicago","state":"IL", 
"zip":60600} 

Mary Smith {"street":"100 Ontario St.","city":"Chicago","state":"IL", 
"zip":60601} 


Todd Jones {"street":"200 Chicago Ave.","city":"0ak 
Park","state":"IL", "zip":60700} 

Bill King {"street":"300 Obscure 

Dr.", "city":"Obscuria","state":"IL","zip":60100} 


接 下 来 ， 让 我 们 看 看 如 何 引 用 集合 数据 类 型 中 的 元 素 。 


首先 ， 数 组 索引 是 基于 0 的 ， 这 个 和 在 Java 中 是 一 样 的 。 这 里 是 一 个 选 
择 subordinates 数 组 中 的 第 1 个 元 素 的 查询 : 


hive> SELECT name, subordinates[0] FROM employees; 
John Doe Mary Smith 
Mary Smith Bill King 


Todd Jones NULL 
Bill King NULL 


主意 ， 引 用 一 个 不 存在 的 元 素 将 会 返回 NULL。 同 时 ， 提 取出 的 
本 型 的 值 将 不 再 加 引号 ! 


为 了 引用 一 个 MAP 元 素 ， 用 户 还 可 以 使 用 ARRAY[...] 语 法 ， 但 是 
使 用 的 是 键 值 而 不 是 整数 索引 : 


hive> SELECT name, deductions["State Taxes"] FROM employees; 
John Doe 0.05 
Mary Smith 0.05 
Todd Jones 0.03 
Bill King 0.03 


最 后 ， 为 了 引用 STRUCT 中 的 一 个 元 素 ， 用 户 可 以 使 用 “点 ”符号 ， 类 
似 于 前 面 提 到 的 “ 表 的 别名 . 列 名 ”这 样 的 用 法 : 


hive> SELECT name, address.city FROM employees,; 
John Doe Chicago 
Mary Smith Chicago 


Todd Jones Oak Park 
Bill King Obscuria 


WHERE 子 句 中 同样 可 以 使 用 这 些 引 用 方式 ， 这 个 我 们 将 在 第 6.2 
节 “WHERE 语 句 ” 中 进行 讨论 。 


6.1.1 使 用 正则 表达 式 来 指定 列 


我 们 其 至 可 以 使 用 正则 表达 式 来 选择 我 们 想 要 的 列 。 下 面 的 查询 
将 会 从 表 stocks 中 选择 symbol 列 和 所 有 列 名 以 price 作 为 前 级 的 列 凯 


hive> SELECT symbol, ‘price.* FROM stocks,; 


AAPL 195.69 197.88 194.0 194.12 194.12 
AAPL 192.63 196.0 190.85 195.46 195.46 
AAPL 196.73 198.37 191.57 192.05 192.05 


AAPL 195.17 200.2 194.42 199.23 199.23 


AAPL 195.91 196.32 193.38 195.86 195.86 


我 们 将 在 第 6.2.3 节 “LIKE 和 RLIKE” 中 继续 讨论 在 Hive 中 如 何 使 用 
正则 表达 式 。 


6.1.2 ”使 用 列 值 进行 计算 


用 户 不 但 可 以 选择 表 中 的 列 ， 还 可 以 使 用 函数 调用 和 算术 表达 式 
来 操作 列 值 。 


例如 ， 我 们 可 以 查询 得 到 转换 为 大 写 的 雇员 姓名 、 雇 员 对 应 的 新 
水 、 需 要 缴纳 的 联邦 税收 比例 以 及 扣除 税收 后 再 进行 取 整 所 得 的 税 后 
薪资 。 我 们 甚至 可 以 通过 调用 内 置 久 数 map_values 提 取出 deductions 字 
段 map 类 型 值 的 所 有 元 素 ， 然 后 使 用 内 置 的 sum 画 数 对 map 中 所 有 元 于 
进行 求 和 运算 。 


以 下 这 个 查询 因为 太 长 ， 所 以 我 们 将 它 划 分 成 两 行 显示 了 。 注 意 
下 第 2 行 Hive 所 使 用 的 提示 符 ， 那 是 一 个 缩 进 了 的 大 于 符号 (>) : 


hive> SELECT upper(name), salary, deductions["Federal Taxes"], 
> round(salary * (1 - deductions["Federal Taxes"])) FROM employees; 
JOHN DOE 100000.0 


MARY SMITH 80000.0 
TODD JONES 70000.0 
BILL KING 60000.0 


让 我 们 先 来 讨论 一 下 算术 运算 符 ， 然 后 再 讨论 如 何在 表达 式 中 使 


用 这 些 算术 运算 符 。 
6.1.3 ”算术 运算 符 


Hive 中 文 持 所 有 典型 的 算术 运算 符 。 表 6-1 描 述 了 有 具体 的 细 季 。 
表 6-1 算术 运算 符 


| 


| _ 
i 


乘 


A 除 以 B。 如 果 能 整除 ， 那 么 返回 商 数 ( 译 者 注 ， 商 数 是 一 个 整数 ， 表 示 
在 不 考虑 有 余数 的 情况 下 ， 除 数 可 以 除 被 除数 的 次 数 ) 


久 |A 和 B 按 位 取 与 


A 和 B 按 位 取 或 


入 | A 和 B 按 位 取 亦 或 


效 | A 按 位 取 反 


算术 运算 符 接 受 任 意 的 数值 类 型 。 不 过 ， 如 果 数 据 类 型 不 同 ， 那 
么 两 种 类 型 中 值 范围 较 小 的 那个 数据 类 型 将 转换 为 其 他 范围 更 广 的 数 
据 类 型 。 (范围 更 广 在 某 种 意义 上 就 是 指 一 个 类 型 具有 更 多 的 字 节 从 
而 可 以 容纳 更 大 范围 的 值 。) 例如 ， 对 于 INT 和 BIGINT 运 算 ，INT 会 
将 类 型 转换 提升 为 BIGINT。 对 于 INT 和 FLOAT 运 算 ，INT 将 提升 为 
FLOAT。 可 以 注意 到 我 们 的 查询 语句 中 包含 有 (1 - deductions[...]) 这 个 
运算 。 因 为 字段 deductions 是 FLOAT 类 型 的 ， 因 此 数字 1 会 提升 为 
FLOAT 类 型 。 


当 进 行 算术 运算 时 ， 用 户 需 要 注意 数据 次 出 或 数据 下 洲 问 题 。 
Hive 避 循 的 是 底层 Java 中 数据 类 型 的 规则 ， 因 此 当 洲 出 或 下 洲 发 生 时 
计算 结 末 不 会 目 动 转换 为 更 广泛 的 数据 类 型 。 乘 法 和 除法 最 有 可 能 会 
引发 这 个 问题 。 


用 户 需 要 注意 所 使 用 的 数值 数据 的 数值 范围 ， 并 确认 实际 数据 是 
人 否 接 近 表 模式 中 定义 的 数据 类 型 所 规定 的 数值 范围 上 限 或 者 下 限 ， 还 
需要 确认 人 人们 可 能 对 这 些 数据 进行 什么 类 型 的 计算 。 


如 采用 户 比 较 担 心 洲 出 和 下 洲 ， 那 么 可 以 考虑 在 表 模 式 中 定义 使 
A 
质 外 的 内 存 。 


用 户 也 可 以 使 用 特定 的 表达 式 将 值 转换 为 范围 更 广 的 数据 类 型 。 
详细 信息 请 参考 随后 的 表 6-2 和 第 6.8 记 “类 型 转换 ”。 

有 时 使 用 函数 将 数据 值 按 比例 从 一 个 范围 缩放 到 男 一 个 范围 也 是 
很 有 用 的 ， 例 如 按照 10 次 方 需 进 行 除法 运算 或 取 log 值 〈 指 数值 ) ， 等 
等 。 这 种 数据 缩放 也 适用 于 某 些 机 右 学 习 计 算 中 ， 用 以 提高 算法 的 准 
确 性 和 数值 稳定 性 。 


6.1.4 ”使 用 函数 


我 们 前 面 的 那个 示例 中 还 使 用 到 了 一 个 内 置 数学 函数 round0， 这 
个 函数 会 返回 一 个 DOUBLE 类 型 的 最 近 整 数 。 


1. 数学 函数 


表 6-2 中 描述 了 Hive 内 置 数 学 函数 ， 
的 ， 而 且 是 用 于 处 理 单个 列 的 数据 的 。 


表 6-2 ”数学 画 数 


round(DOUBLE d, 
INT n) 


floor (DOUBLE d) 


ceil(DOUBLE d) 
ceiling(DOUBLE 
d) 


rand() 
rand(INT 


seed) 


exp(DOUBLE d) 


ln(DOUBLE d) 


log10(DOUBLE d) 


10og2(DOUBLE d) 


log(DOUBLE 
base, 
DOUBLE d) 


返回 DOUBLE 型 d 的 BIGINT 类 型 的 近似 值 


回 DOUBLE 型 d 的 保留 n 位 小 数 的 DOUBLE 型 的 近似 值 


d 是 DOUBLE 类 型 的 ， 返 


d 是 DOUBLE 类 型 的 ， 返 


回 一 个 DOUBLE 型 随机 数 ， 整 数 seed 是 随机 


这 是 Hive v0.8.0 版 本 中 所 提供 


<=d 的 最 大 BIGINT 型 值 


回 >=d 的 最 小 BIGINT 型 值 


以 10 为 底 d 的 对 数 ， 返 


以 2 为 底 d 的 对 数 ， 返 回 DOUBLE 型 值 


以 base 为 底 d 的 对 数 ， 返 


DOUBLE 型 的 


回 e 的 d 寡 次 方 ， 返 回 的 是 个 DOUBLE 型 值 


自然 数 为 底 d 的 对 数 ， 返 


回 DOUBLE 型 值 


回 DOUBLE 型 值 


回 DOUBLE 型 值 ,其 中 base 和 d 都 


XE 


人 样式 
pow(DOUBLE 

DOUBLE | p) 回 DOUBLE 值 ,其 中 d 和 p 都 是 DOUBLE 
power(DOUBLE d, | 入 
DOUBLE p) 


DOUBLE | sart (pouBLE d) ， 其 中 d 是 DOUBLE 型 的 
i) 


出 依 i 萨 洪 刑 信 ”上 甘 册 ;县 天 | 
STRING 冲 值 的 STRING 类 型 值 ， 其 中 i 是 BIGINT 类 型 
STRING |hex(sTRING str) | 着 表 达 的 值 str 的 STRING 类 型 值 


1 1 | 1 AT 米 瑾 J 吉 ] A 
STRING | saw b) | 计算 出 表 达 的 值 b 的 STRING 类 型 值 (Hive 0.12.0 版 7 
sa a= 
STRING |unhnex(sTRING i) |hex(STRING str) 的 逆 方 法 


conv(BIGINT 

STRING | "am， 年 BIGINT 类 型 的 num 从 from_base 进 制 转换 成 to_base 进 
INT from_base, 出 ， 并 返 可 STRING 类 型 结果 
INT to_base) 


conv(STRING 

STRING |™™ 年 STRING 类 型 的 num 从 from_base 进 制 转换 成 to_base 进 
INT from_base，| 制 ， 并 返回 STRING 类 型 结果 
INT to_base) 

DOUBLE | soouaus | 计算 DOUBLE 型 全 qd 的 绝对 值 ，1 也 是 DOUBLE 型 


pmod(INT 11， |INT 值 1 对 INT 值 2 取 模 ， 结 果 


INT i2) 


pmod(DOUBLE di, |DOUBLE 值 d1 对 DOUBLE 值 d2 取 模 ， 结 果 也 是 DOUBLE 
DOUBLE d2) 型 的 


在 弧度 度量 中 ， 返 回 DOUBLE 型 值 d 的 了 
sin(DOUBLE d) DOUBLE 型 的 


在 弧度 度量 中 ， 返 回 DOUBLE 型 值 d 的 反正 弦 值 ， 结 果 是 
DOUBLE 型 的 


Ee 在 弧度 度量 中 ， 返 回 DOUBLE 型 值 d 的 余弦 值 ， 
cos(DOUBLE d) DOUBLE 型 的 


asin(DOUBLE d) 


在 弧度 度量 中 ， 返 回 DOUBLE 型 值 d 的 反 余弦 值 ， 结 果 是 
DOUBLE 型 的 


在 弧度 度量 中 ， 返 回 DOUBLE 型 值 d 的 正切 值 ， 
tan(DOUBLE d) DOUBLE 型 的 


在 弧度 度量 中 ， 返 回 DOUBLE 型 值 d 的 反正 切 值 ， 结 果 是 
DOUBLE 型 的 


acos(DOUBLE d) 


atan(DOUBLE d) 


degrees(DOUBLE 将 DOUBLE 型 弧度 值 d 转 换 成 
d) 的 


radians(DOUBLE 将 DOUBLE 型 角 度 值 d 转 换 成 弧度 值 ) 


d) 


positive(INT i) | 返回 INT 型 值 ( 其 等 价 的 有 交 


返回 值 关 | 。 样式 


DOUBLE positive(DOUBLE 返回 DOUBLE 型 值 dd] 
d) 
| 


negative(DOUBLE | 、 


等 价 的 有 效 表达 式 是 -d) 


RDOUBLE 型 值 d 是 正 数 的 话 ， 则 返回 FLOAT 值 1.0; 
Rd 是 负数 的 话 ， 则 返回 -1.0;， 否 则 返回 0.0 


ol | 关 常 数 e， 也 就 是 超越 数 ， 的 DOUBLE 型 值 
DOUBLE et 第 数 pi， 也 就 是 圆周 率 ， 的 DOUBLE 型 值 


需要 注意 的 是 函数 floor、round 和 ceil (“向 上 取 整 ”) 输入 的 是 
DOUBLE 类 型 的 值 ， 而 返回 值 是 BIGINT 类 型 的 ， 也 就 是 将 浮 点 型 数 转 
换 成 整 型 了 。 在 进行 数据 类 型 转换 时 ， 这 些 函 数 是 首选 的 处 理 方 式 ， 
而 不 是 使 用 前 面 我 们 提 到 过 的 cast 类 型 转换 操作 符 。 


同样 地 ， 也 存在 基于 不 同 的 故 〈 例 如 十 六 进 制 ) 将 整数 转换 为 字 
符 串 的 函数 。 


2. 聚合 画 数 


聚合 函数 是 一 类 比较 特殊 的 函数 ， 其 可 以 对 多 行进 行 一 些 计 算 ， 
然后 得 到 一 个 结果 值 。 更 确切 地 说 ， 这 是 用 户 目 定义 聚合 国 数 ， 在 第 
13.4 玉 “聚合 函数 ”中 会 有 详细 的 介绍 。 这 类 函数 中 最 有 名 的 两 个 例子 
就 是 count 和 avg。 函数 count 用 于 计算 有 多 少 行 数据 (或 者 某 列 有 多 少 
值 ) ， 而 函数 avg 可 以 返回 指定 列 的 平均 值 。 


Sign(DOUBLE d) 


这 里 是 一 个 查询 示例 表 employees 中 有 多 少 雇员 ， 以 及 计算 这 些 雇 
员 平 均 薪 水 的 HiveQL 语 句 : 


hive> SELECT count(*), avg(salary) FROM employees; 
4 77500.0 


当 我 们 在 第 6.3 季 “GROUP BY 语句 ”中 讨论 GROUP BY 时 将 会 看 到 
其 他 的 例子 。 


表 6-3 列举 了 Hive 的 内 置 聚 合 函 数 。 
表 6-3 ” 育 合 画 数 


算 总 行 数 ， 包 括 含 有 NULL 值 


count (DISTINCT 计算 提供 的 expr 表 达 式 的 值 排 重 
expr[, expr_.]) 后 非 NULL 的 行 数 


DOUBLE variance(col)， 集 日 col 中 的 一 组 数值 的 方 
Var_pop(col) 


stddev_samp(col) ) 日数 值 的 标准 术 
covar_pop(col1, co12) 日 数值 的 协 方 差 


DOUBLE covar_samp(col1, col2) L EF 协 方差 
DOUBLE comr(coll col2) 


| int_expr 帮 3 
DOUBLE percentile(BIGINT 的 对 应 的 
int_expr, p) DOUBLEF 弄 业 
int_expr 在 p ( 范 车 
ARRAY<DOUBLE> | 有 的 对 应 的 百 
int_expr,ARRAY(P1[, P21]... 
DOUBLE 


percentile approx 
DOUBLE 
(DOUBLE col,p[ , NB]) 


范围 是 ，[0,1]) 处 的 对 
percentile_approx 5 其 中 p 是 一 个 
ARRAY<DOUBLE> (DOUBLE col,ARRAY 由 数组 ， NB 是 用 于 估 

(pi[, p2]..)[, NB]) i 直方 图 中 的 仓库 数量 〈 默 


a ee NB 数量 的 直方 图 仓库 数 
ARRAY<STRUCT{'x',y'}> i ogram_ numeric(col, ， 激 回 结果 中 的 值 x 是 中 心 ， 
库 的 高 


合 col 元 素 排 重 后 的 数 


通 第 ， 可 以 通过 设 萤 属性 hive.map.aggr 值 为 rue 来 提高 聚合 的 性 
能 ， 如 下 所 示 : 


hive> SET hive.map.aggr=true; 
hive> SELECT count(*), avg(salary) FROM employees; 

正如 这 个 例子 所 展示 的 ， 这 个 设置 会 触发 在 map 阶 段 进 行 的 “ 顶 
级 ”聚合 过 程 。 ( 非 顶 级 的 聚合 过 程 将 会 在 执行 一 个 GROUP BY 后 进 
行 。) 不 过 ， 这 个 设置 将 需要 更 多 的 内 存 。 


如 表 6-3 所 示 ， 多 个 函数 都 可 以 接受 DISTINCT ... 表达 式 。 例 如 ， 
我 们 可 以 通过 这 种 方式 计算 排 重 后 的 孤僻 交易 码 个 数 : 


hive> SELECT count(DISTINCT symbol) FROM stocks,; 
0 


一 一 


TS 老生 


等 一 下 ， 结 果 为 0? 当 使 用 count(DISTINCT co]) 而 同时 col 是 
分 区 列 时 存在 这 个 bpug。 对 于 纳 斯 达 克 和 纽约 证 券 交 易 所 来 说 答案 


应 该 是 743， 至 少 在 我 们 使 用 的 2010 年 初 infochimps.org 提 供 的 数 
据 集 中 是 这 个 数 。 


注意 ， 在 Hive wiki 中 ， 目 前 不 允许 在 一 个 查询 语句 中 使 用 多 于 一 
个 的 夯 数 (DISTINCT ...) 表 达 式 。 例 如 ， 下 面 这 个 查询 语句 按说 是 不 允 
许 的 ， 但 是 实际 上 是 可 以 执行 的 : 


hive> SELECT count(DISTINCT ymd), count(DISTINCT volume) FROM Stocks 
12110 26144 


因此 ， 从 查询 结果 中 可 以 看 到 有 12 110 个 交易 日 的 数据 ， 即 超过 
40 年 的 价值 。 


3. 表 生 成 函数 


与 聚合 钞 数 “相反 的 ”一 类 函数 就 古 所 谓 的 表 生 成 函数 ， 其 可 以 将 
单列 扩展 成 多 列 或 者 多 行 。 我 们 将 在 第 13.5 入 “ 表 生 成 画 数 ”中 更 全 面 
地 讨论 这 类 函数 ， 这 里 我 们 将 简要 地 讨论 下 ， 然 后 列举 出 Hive 目 前 所 
提供 的 一 些 内 置 表 生成 玉 数 。 


下 面 我 们 通过 一 个 例子 来 进行 讲解 。 如 下 的 这 个 查询 语句 将 
employees 表 中 每 行 记 录 中 的 subordinates 字 段 内 容 转换 成 0 个 或 者 多 个 
源 的 记录 行 。 如 果 某 行 雇 员 记 录 subordinates 字 段 内 容 为 空 的 话 ， 那 么 
将 不 会 产生 新 的 记录 ; 如 采 不 为 空 的 话 ， 那 么 这 个 数组 的 每 个 元 素 都 
将 产生 一 行 新 记录 : 


hive> SELECT explode(subordinates) AS sub FROM employees; 
Mary Smith 

Todd Jones 

Bill King 


上 面 的 查询 语句 中 ， 我 们 使 用 AS sub 子 句 定义 了 列 别名 sub。 当 
使 用 表 生 成 钞 数 时 ，Hive 要 求 使 用 列 别名 。 用 户 可 能 需要 了 解 其 他 许 
多 的 特性 细 太 才能 正确 地 使 用 这 些 函 数 。 第 13.5 订 “ 表 生 成 画 数 ”中 ， 
我 们 将 进行 详细 的 讨论 。 


表 6-4 列 举 了 Hive 内 置 的 表 生 成 函数 。 


下 面 是 一 个 使 用 函数 parse_url_tuple 的 例子 ， 其 中 我 们 假设 存在 一 
张 名 为 url_table 的 表 ， 而 且 表 中 含有 一 个 名 为 url 的 列 ， 列 中 存储 有 很 


多 网 址 : 


SELECT parse_url tuple(url, 'HOST', 'PATH', 'QUERY') as (host, path, query) 
FROM url_ table; 


表 6-4” 表 生成 画 数 


回 0 到 多 行 结果 ， 每 行 都 对 应 输入 的 array 数 组 中 的 一 


explode(ARRAY array) 个 元 素 


回 0 到 多 行 结果 ， 每 行 对 应 每 个 map 键 - 值 对 ， 其 中 一 
explode(MAP map) 个 字段 是 map 的 键 ， 个 字段 对 应 map 的 值 (Hive 
0.8.0 版 本 新 增 ) 


explode (ARRAY<TYPE> 对 于 a 中 的 每 个 元 素 ， explode() 会 
a) 个 元 素 


inline(ARRAY<STRUCT 0 (Hive 0.10.0 版 本 


[, STRUCT]>) 


json_tuple(STRING 头 接受 多 个 标签 名 称 ， 对 输入 的 JSON 字 符 串 
jsonstr，p1，p2， 里 ， 这 个 get_json_ object 广 个 UDF 类 似 ， 不 过 更 
.pn) 其 通过 一 次 调用 就 可 以 获得 多 个 键 值 


arse_url tuple(url 从 URL 中 解析 出 N 个 部 分 信息 。 其 输入 参数 是 ，URL， 
J : “| 以 及 多 个 要 抽取 的 部 分 的 名 称 。 所 有 输入 的 参数 的 类 
es 型 都 是 STRING 部 分 名 称 是 大 小 写 敏 感 的 ， 而 ] 日 不 应 
,其 中 该 包含 有 空格 : HOST PATH, QUERY, 

partnameN) 大 N 

Se REF,PROTOCOL, AUTHORITY, FILE, 
USERINFO,QUERY:<KEY_ NAME> 


stack(INT n，col1， | 把 M 列 转换 成 N 行 ， 每 行 有 M/N 个 字段 。 其 中 n 必 须 是 
八 '* 游 粮 
., COlM) | 靖 数 


根据 下 面 的 表 6-5， 用 户 可 以 比较 下 函数 parse_url_tuple 和 函数 


parse_url 有 的 区 别 。 
4. 其 他 内 置 画 数 


表 6-5 中 描述 了 Hive 中 其 余 的 内 置 画 数 ， 这 些 了 画 数 用 于 处 理 字符 
串 、Map、 数 组 、JSON 和 时 间 戳 ， 包 含 或 者 没有 包含 最 近 引 入 的 
TIMESTAMP 数 据 类 型 (参考 第 3.1 节 “基本 数据 类 型 * 中 的 内 容 ) 。 


表 6-5 ”其 他 内 置 画 数 


base64(BINARY bin) 


binary(STRING s) 
binary(BINARY b) 


cast(<expr> as 


<type>) 


concat(BINARY si1, 


BINARY s2, ..) 


concat(STRING si1, 


STRING s2, ..) 


返回 字符 串 s 
的 整数 值 


中 首 个 ASCII 字 符 


将 二 进 制 值 bin 转 换 成 基于 64 位 
的 字符 串 (Hive 0.12.0 版 本 新 增 ) 


将 输入 的 值 转换 成 二 进 旬 


(Hive 0.12.0 版 本 新 增 ) 


将 expr 转 换 成 type 类 型 的 。 例 如 
cast('1' as BIGINT) 将 会 将 字符 
串 纪 转换 成 BIGINT 数 值 类 型 。 
如 果 转 换 过 程 失 败 ， 则 返回 


进 制 字 廊 码 按 次 序 拼接 成 
串 (Hive 0.12.0 版 本 汲 


将 字符 串 s1s2 等 拼接 成 一 个 字 


符 串 。 例 如 ， 
结果 是 ‘abcd? 


concat(‘ab’”,cd”) 的 


返回 值 类 型 


STRING 
STRING 


ARRAY<STRUCT 
<STRING,DOUBLE>> 


STRING 


BINARY 


STRING 


concat_ws (STRING 
separator, STRING 
S1, STRING Ss2,...) 


concat_ws(BINARY 
separator, BINARY 
S1, STRING Ss2,...) 


context_ngrams(array 
<array<string>>,array 
<string>,int K, int 
pf) 


decode(BINARY bin, 
STRING charset) 


encode(STRING src, 
STRING charset) 


find_in_set(STRING 
Ss,STRING commaSepa- 
ratedstring) 


format_number (NUMBER 
x, INT d) 


和 concat 类 似 ， 不 过 是 使 9 
的 分 隔 符 进 行 拼接 的 


ee er 


0. 


人 革 


和 ngrams 类 似 ， 是 从 每 个 外 


层 数组 的 第 二 个 单词 数组 来 查 
找 前 K 个 字 必 


使 用 指定 的 字符 集 charset 将 二 进 
麟 值 bin 解 码 成 字符 串 ( 文 持 的 字 


符 集 有 :"US_ASCII, ISO-8859-1， 
'UTEF-8，UTF-16BE'，UTEF- 


1 


6LE', 'UTF- 16"). 如 果 任 一 输入 


参数 为 NULL， 则 结果 为 
NULL(Hive 0.12.0 版 本 新 增 ) 


使 用 指定 的 字符 集 charset 将 字符 


串 src 编 码 成 二 进 制 值 (支持 的 字 
符 集 有 :"US_ASCII, TSO-8859-1， 
UTF-8'", 'UTF-16BE', 'UTF- 


1 


6LE', 'UTF-16"). 如 果 任 一 输入 


参数 为 NULL， 则 结果 为 
NULL(Hive 0.12.0 版 本 新 增 ) 


在 以 各 号 分 隔 的 字符 串 中 s 
现 的 位 置 ， 如 果 没 有 找到 则 
NULL 


将 数值 x 转换 成 和,# 才 ,## 柑 . 失 ' 格 
式 字 符 串 ， 并 保留 d 位 小 数 。 如 


Es: 


7 本 


数 点 后 面 的 值 


Rd 为 0， 那 么 输出 值 就 没有 小 


返回 值 类 型 


STRING 


STRING 


STRING 


STRING 


样式 


get_json_object 
(STRING json_string, 
STRING path ) 


in_file(STRING s, 
STRING filename) 


instr(STRING str, 
STRING substr) 


Jength(STRING s) 


lJocate(STRING substr, 
STRING str [,INT 
pos]) 


Jower (STRING s) 


lcase(STRING s) 


Jpad(STRING s,INT 
len,STRING pad) 


抽取 


i 入 
返 


例如 


出 JSON 对 象 ， 并 返回 这 个 


象 的 JSOM 字 符 串 形式 。 如 果 


的 JSON 字 符 串 是 非法 的 ， 
加 NULL 


，test in (vall, val2, ...), 其 


表示 如 果 test 值 等 于 后 面 列 表 中 
的 任 一 值 的 话 ， 则 返回 true 


如 果 文 件 名 为 flename 的 文件 中 


匹配 


查找 
第 一 


计算 


查找 
字符 


将 地 
与 子 


会 被 


有 完整 一 行 数据 和 字符 囊 s 完 全 


的 话 ， 则 返回 true 


字符 串 str 中 子 字符 串 substr 
次 出 现 的 位 置 


字符 串 s 的 长 度 


在 字符 串 str 中 的 pos 位 置 后 
串 substr 第 一 次 出 现 的 位 置 


符 串 中 所 有 字母 转换 成 小 
°。 例如 ，upper(‘hIvE’) 的 


是 ‘hive? 


对 字符 申 s 使 用 字符 
行 填充 ， 最 终 达到 Ien 攻 
lk 字符 帅 s 本 身长 度 
6 话 ， 那 么 多 余 的 部 分 
去 除 掉 


返回 值 类 型 


STRING 


ARRAY<STRUCT 
<STRING,DOUBLE>> 


STRING 


STRING 
STRING 


STRING 


ltrim(STRING S) 


ngrams (ARRAY< 
ARRAY<string>>, 
INT N, INT K,INT pf) 


parse_url(STRING 
url,STRING partname 
[, STRING key]) 


printf(STRING 


format, 0bj ... args) 


regexp_extract(STRING 


subject, STRING 
regex_pattern, 
STRING index) 


regexp_replace 
(STRING s,STRING 
regex, 


STRING replacement) 


将 字符 串 s 前 面 出 现 的 空 术 
去 除 掉 。 例 如 trim(' hive ) 的 结果 


是 ‘hive? 


全 间 


估算 文件 中 前 K 个 字 尾 。pf 是 精 
度 系数 


从 URL 中 抽取 指定 部 分 的 内 

容 。 参 数 url 表 示 一 个 URL 字 符 
i 参数 partname 表 示 要 抽取 的 
部 分 名 称 ， 其 是 大 小 写 敏 感 

的 可 选 的 值 有 : HOST PATHL 
QUERY REF, PROTOCOL, 
AUTHORITY, FILE， 
USERINFO, QUERY:<key> ° 如 
果 partname 是 QUERY 的 话 ， 那 
么 还 需要 指定 第 三 个 参数 key。 
可 以 和 表 6-4 中 的 parse_url_tuple 
对 比 下 


nb 格式 化 输出 输入 
ee (Hive 0.9.0 版 本 新 


抽取 字符 串 subject 中 符合 正则 表 
达 式 regex_pattern 的 第 index 个 癌 


分 的 子 字符 虽 


按 照 Java 正 则 表达 式 regex 将 字 

符 串 s 中 符合 条 件 的 部 分 类 换 成 
replacement 所 指定 的 3 串 a。 
如 果 replacement 部 分 是 空 的 话 ， 
那么 符合 正则 的 部 门 就 会 被 去 
除 挥 。 例 如 regexp_ replace('hive,', 
'[ie]', 'Z'") 的 结果 是 ‘hzvz? 


返回 值 类 型 样式 


STRING "epeat(STRING sn | 重复 输出 n 次 字符 串 s 
n) 
STRING reverse(STRING s) 反 转 字符 串 


边 开 始 对 字符 串 s 使 用 字符 
rpad(STRING s, INT 进行 填 终 达 到 len 长 
STRING len, STRING pad) 5 
HYE 
条 出 现 的 空格 全 部 
STRING rtrim(STRING s) 去 除 掉 。 例如 trim( hive ) 的 结果 
是 hive’ 


输入 字符 串 s 转 换 成 句子 数 
sentences(STRING 每 个 句子 又 由 个 单词 数 

ARRAY<ARRAY<STRING>> |s, striNG lang, STRING 构成 。 参 数 lang 和 locale 是 可 
locale) 选 的， 如 果 没 有 使 用 的 ， 则 使 

默认 的 本 地 化 信息 


size(MAP<K.V>) 


~ 
STRING space(INT n) 


Split(STRING s 按照 正则 表达 式 pattern 分 害 
ARRAY<STRING> lL 串 s， 并 将 分 割 后 的 部 分 L 
STRING pattern) 串 数组 的 方式 返回 


MAP<STRING , STRING> 


STRING 
STRING 


sa 
ee 
| 
ee 


str_to_map 
(STRING s,STRING 
delimi1, 

STRING delim2) 


substr (STRING 

s, STRING 
start_index)substring 
(STRING s,STRING 


start_index) 


substr (BINARY 

s, STRING 
start_index)substring 
(BINARY S, STRING 


start_index) 


translate(STRING 
input, 

STRING from, STRING 
to) 


trim(STRING A) 


unbase64(STRING str) 


upper (STRING A) 
ucase(STRING A) 


将 字符 串 s 按 照 指 定 分 隔 符 转 换 
成 Map， 第 一 个 参数 是 输入 的 字 
符 串 ， 第 二 个 参数 是 键 值 对 之 
间 的 分 隔 符 ， 第 三 个 分 隔 符 是 


键 和 值 之 间 的 分 隔 符 


对 于 字符 串 s， 从 start 位 置 开 始 
截取 length 长 度 的 字符 串 ,作为 子 
字符 串 。 例 如 
substr(‘abcdefgh’,3,2) 的 结果 
日 .6 3 
二 “cd 


对 于 二 进 制 字 节 值 s， 从 start 位 
置 开 始 截 取 length 长 度 的 字符 串 ， 
0 (Hive 0.12.0 草 
曾 ) 


将 字符 串 s 前 后 出 现 的 空格 全 部 
去 除 挥 。 例 如 trim(' hive ) 的 结果 


是 ‘hive? 


将 基于 64 位 的 字符 串 str 转 换 成 
二 进 制 值 (Hive 0.12.0 版 本 新 


增 


将 字符 串 中 所 有 字母 转换 成 大 
写字 母 。 例 如 ，upper(‘hIVvE’) 的 
吉 果 是 “HIVE， 


返回 值 类 型 样式 


from_unixtime 将 时 间 截 秒 数 转换 成 UTC 时 
STRING remr uixtimner， | 间 ， 井 用 字符 由 表示 ,可 以 通过 
′ |format 规 定 的 时 间 格 式 ， 指 定 输 
STRING format]) 出 的 时 上 机 式 
CE A i . 


输入 的 时 间 字 符 串 格式 必须 是 
yyyy-MM-dd HH:mm:ss， 如 果 
a 可 0， 如 果 符合 则 将 
BIGINT 0 此 时 间 字 符 串 转换 成 Unix 时 间 
(STRING date) 翟 8 列 如 : 
Unix_timestamp(2009- 03-20 
11:30:01) = 1237573801 


将 指定 时 间 字 符 串 格式 字符 串 
unix_timestamp 转换 成 Unix 时 间 礁 ， 如 果 格 式 
BIGINT (STRING date，sTRING | 不 对 则 返回 0。 例 如 : 
pattern) unix_timestamp('2009-03-20 
yyyy-MM-ddn = 1237532400 
和 返回 时 间 字 符 串 的 日 期 部 分 ， 
STRING rs 例如 : to_ date("1970-01-01 
00:00:00") = "1970-01-01" 


返回 时 间 字 符 串 中 的 年 份 并 使 

用 INT 类 型 表示 。 例 

Year(STRINS date) | 如 :year("1970-01-01 00:00:00") = 
1970, year("1970-01-01") = 1970 


返回 时 间 字 符 串 中 的 月 份 并 使 
INT 


INT 类 型 表示 。 例 如 : 
month("1970-11-01 00:00:00") = 
11, month("1970-11-01") = 11 


month(STRING date) 


STRING 
STRING 


day(STRING date) 
dayofmonth(STRING 
date) 


hour (STRING date) 


minute(STRING date) 


second(STRING date) 


weekofyear (STRING 
date) 


datediff(STRING 
enddate, STRING 
startdate) 


date_add(STRING 
startdate, INT days) 


date_sub(STRING 
startdate, INT days) 


返回 时 间 字 符 串 中 的 天 并 使 用 
INT 类 型 表示 。 例 如 :day("1970- 
11-01 00:00:00") = 1, day("1970- 
I 


» 


返回 时 间 惟 字符 串 中 的 小 时 并 
使 用 INT 类 型 表示 。 例 如 : 
hour(2009-07-30 12:58:590 = 12， 
hour('12:58:59") = 12 


回 时 间 字 符 串 中 的 分 钟 数 


寺 间 字符 串 中 的 秒 数 


返回 时 间 字 符 串 位 于 一 年 中 第 
几 个 周 内 。 例 如 : 
weekofyear("1970-11-01 
00:00:00") = 44, 
weekofyear("1970-11-01") = 44 


计算 开始 时 间 startdata 到 结束 时 
间 enddata 相 差 的 天 数 。 例 如 : 
datediff(2009-03-01,，'2009-02- 
27) = 2 


为 开始 时 间 startdata 增 加 days 
天 。 例 如 :，date_add('2008-12- 
31, 1) = '2009-01-01' 


从 开始 时 间 startdata 中 减 去 days 
天 。 例 如 : date_sub('2008-12- 
31, 1) = '2008-12-30' 


from_utc_timestamp 如 果 给 定 的 时 间 惟 并 非 UTC， 
TIMESTAMP (TIMESTAMP timestamp, | 则 将 其 转化 成 指定 的 时 区 下 的 
STRING timezone) 时 间 玲 (Hive 0.8.0 版 本 前 


to_utc_ timestamp 

TIMESTAMP ee we UTC 下 
imezone 区 

本 新 增 ) 


需要 注意 的 是 ， 和 时 间 相 关 的 函数 输入 的 是 整 型 或 者 字符 囊 类 型 
参数 。 对 于 Hive v0.8.0 版 本 ， 这 些 函 数 同样 接受 TIMESTAMP 类 型 参 
数 ， 同 时 为 了 向 后 兼容， 它们 还 将 继续 支持 之 前 的 整 型 和 字符 囊 类 于 
参数 。 


6.1.5 ”LIMIT 语句 


典型 的 查询 会 返回 多 行 数据 。LIMIT 子 句 用 于 限制 返回 的 行 数 : 


hive> SELECT upper(name), salary, deductions["Federal Taxes"], 
> round(salary * (1 - deductions["Federal Taxes"])) FROM employees 
> LIMIT 2; 


JOHN DOE 100000.0 0.2 80000 
MARY SMITH 80000.0 0.2 64000 


6.1.6 ” 列 别名 
前 面 的 示例 查询 语句 可 以 认为 是 返回 一 个 由 新 列 组 成 的 新 的 关 


系 ， 其 中 有 些 新 产生 的 结果 列 对 于 表 employees 来 说 是 不 存在 的 。 通 常 
有 必要 给 这 些 新 产生 的 列 起 一 个 名 称 ， 也 就 是 别名 。 下 面 这 个 例子 对 
之 前 的 那个 查询 进行 了 修改 ， 为 第 3 个 和 第 4 个 字段 起 了 别名 ， 别 名 分 
别 为 fed_taxes 和 salary_minus_fed_taxes ° 


hive> SELECT upper(name), salary, deductions["Federal Taxes"] as fed_ taxes, 
> round(salary * (1 - deductions["Federal Taxes"])) as salary minus_ fed taxes 
> FROM employees LIMIT 2; 


JOHN DOE 100000.0 0.2 80000 
MARY SMITH 80000.0 0.2 64000 


6.1.7“” 航 套 SELECT 语 铝 


对 于 舱 确 得 询 语 名 来 说 ， 使 用 别名 是 非常 有 用 的 。 下 面 ， 我 们 使 
用 前 面 的 示例 作为 一 个 娩 套 查询 : 


hive> FROM ( 
> SELECT upper(name), salary, deductions["Federal Taxes"] as fed_taxes, 
> round(salary * (1 - deductions["Federal Taxes"])) as salary_ 
minus_fed_taxes 
> FROM employees 


> ) e 

> SELECT e.name, e.salary_minus_fed_taxes 

> WHERE e.salary_minus_fed_ taxes > 70000; 
JOHN DOE 100000.0 0.2 80000 


从 这 个 藤 套 查询 语句 中 可 以 看 到 ， 我 们 将 前 面 的 结果 集 起 了 个 别 
名 ， 称 之 为 e， 在 这 个 语句 外 面 瞪 和 套 碍 询 了 name 和 
salary_minus_fed_taxes 两 个 字段 ， 同 时 约束 后 者 的 值 要 大 于 70，000。 
和 


6.1.8 CASE ... WHEN ...THEN 人 句 式 


CASE ... WHEN ... THEN 语 句 和 if 条 件 语句 类 似 ， 用 于 处 理 单个 
列 的 查询 结果 。 


例如 : 


hive> SELECT name, salary, 

CASE 
WHEN salary < 50000.0 THEN 'low' 
WHEN Salary >= 50000.0 AND salary < 70000.0 THEN ‘'middle' 
WHEN salary >= 70000.0 AND Salary < 100000.0 THEN ‘'high' 
ELSE 'very high' 

END AS bracket FROM employees; 

Doe 100000.0 very high 


Smith 80000.0 high 

Jones 70000.0 high 

King 60000.0 middle 

Man 200000.0 very high 

Finance 150000.0 very high 
Stacy Accountant 60000.0 middle 


6.1.9 什么 情况 下 Hive 可 以 避免 进行 MapReduce 


对 于 本 书 中 的 和 查询， 如果 用 户 进 行 过 执行 的 话 ， 那 么 可 能 会 注意 
到 大 多 数 情况 下 查询 都 会 触发 一 个 MapReduce 任 务 (job) 。Hive 中 对 
i 也 就 是 所 谓 的 不 态 春 趟 ， 
列 如 : 


SELECT * FROM employees,; 


在 这 种 情况 下 ，Hive 可 以 简单 地 读 取 employees 对 应 的 存储 目录 下 
的 文件 ， 然 后 输出 格式 化 后 的 内 容 到 控制 台 。 


对 于 WHERE 语句 中 过 滤 条 件 只 是 分 区 字段 这 种 情况 (无 论 是 否 
使 用 LIMIT 语 句 限制 输出 记录 条 数 ) ， 也 是 无 需 MapReduce 过 程 的 。 


SELECT * FROM employees 
WHERE country='US' AND State='CA' 
LIMIT 100; 


此 外 ， 如 果 属 性 hive.exec.mode.local.auto 的 值 设 置 为 true 的 话 ， 
Hive 还 会 尝试 使 用 本 地 模式 执行 其 他 的 操作 : 


否则 ，Hive 使 用 MapReduce 来 执行 其 他 所 有 的 查询 。 


-a " 

a 

We 本 ee—h 
ky 提示 


相信 我 ， 最 好 将 set hive.exec.mode.local.auto=true: 这 个 设置 增 


加 到 你 的 $HOME/hiverc 配 置 文件 中 。 


6.2 WHERE 语 句 


SELECT 语句 用 于 选取 字段 ，WHERE 语 句 用 于 过 滤 条 件 ， 两 者 结 
合 使 用 可 以 查找 到 符合 过 滤 条 件 的 记录 。 和 SELECT 语句 一 样 ， 在 介 
绍 WHERE 语 句 之 前 我 们 已 经 在 很 多 的 简单 例子 中 使 用 过 它 了 。 之 前 
都 是 假定 用 户 是 见 过 这 样 的 语句 的 ， 现在 我 们 将 更 多 地 探讨 一 些 细 
-D 


WHERE 语句 使 用 谓词 表达 式 ， 对 于 列 应 用 在 谓词 操作 符 上 的 情 
况 ， 稍 后 我 们 将 进行 讨论 。 有 几 种 谓词 表达 式 可 以 使 用 AND 和 OR 相 
连接 。 当 谓词 表达 式 计算 结果 为 true 时 ， 相 应 的 行将 被 保留 并 输出 。 


我 们 刚才 束 使 用 了 下 面 这 个 例子 来 限制 查询 的 结果 必须 十 美国 的 
加 利 福 尼 亚 州 的 : 


SELECT * FROM employees 
WHERE country = 'US' AND state = 'CA'，; 


谓词 可 以 引用 和 SELECT 语 句 中 相同 的 各 种 对 于 列 值 的 计算 。 这 里 我 
们 修改 下 之 前 的 对 于 联邦 税收 的 查询 ， 过 滤 保 留 那 些 工 资 减 去 联邦 税 
后 总 额 大 于 70，000 的 查询 结果 : 


hive> SELECT name, salary, deductions["Federal Taxes"], 
> salary * (1 - deductions["Federal Taxes"]) 


> FROM employees 
> WHERE round(salary * (1 - deductions["Federal Taxes"])) > 70000,; 
John Doe 100000.0 0.2 80000.0 


这 个 查询 语句 有 点 难看 ， 因 为 第 2 行 的 那个 复 洒 的 表达 式 和 
WHERE 后 面 的 表达 式 是 一 样 的 。 下面 的 查询 语句 通过 使 用 一 个 列 别 
名 谢 除 了 这 里 表达 式 重 复 的 问题 ， 但 是 不 壮 的 是 它 不 是 有 效 的 : 


hive> SELECT name, salary, deductions["Federal Taxes"], 
> salary * (1 - deductions["Federal Taxes"]) as Salary_minus_fed_taxes 
> FROM employees 
> WHERE round(salary_minus_fed_taxes) > 70000 

FAILED: Error in semantic analysis: Line 4:13 Invalid table alias or 

column reference 'salary_ minus_fed taxes': (possible column names are: 

name, salary, subordinates, deductions, address) 


正如 错误 信息 所 提示 的 ， 不 能 在 WHERE 语 句 中 使 用 列 别名 。 不 
过 ， 我 们 可 以 使 用 一 个 租 套 的 SELECT 语句 : 


hive> SELECT e.* FROM 
> (SELECT name, salary, deductions["Federal Taxes"] as ded, 
> salary * (1 - deductions["Federal Taxes"]) as Salary_minus_fed_taxes 
> FROM employees) e 


> WHERE round(e.salary minus_fed taxes) > 70000; 
John Doe 100000.0 0.2 80000.0 
Boss Man 200000.0 0.3 140000.0 
Fred Finance 150000.0 0.3 105000.0 


6.2.1 ”谓词 操作 符 


表 6-6 描 述 了 谓词 操作 符 ， 这 些 操 作 符 同样 可 以 用 于 JOIN... ON 和 
HAVING 语 句 中 。 


表 6-6 ”谓词 操作 符 


返回 TRUE, 反 之 返回 FALSE 


如 果 A 和 B 都 为 NULL 则 返回 TRUE ， 其 他 的 和 等 号 (=) 操 
作 符 的 结果 一 > 如 果 任 一 ee (Hive 
0.9.0 版 本 新 增 ) 


是 错误 的 语法 ! SQL 使 用 =， 而 不 


A 或 者 B 为 NULL 则 返回 NULL; 如 果 A 不 等 于 B 则 返 
TRUE， 反 之 返回 FALSE 


A 或 者 B 为 NULL 则 返回 NULL; 如 果 A 小 于 B 则 返回 TRUE， 
反之 返回 FALSE 


A 或 者 B 为 NULL 则 返回 NULL; 如 果 A 小 于 或 等 于 B 则 返 
TRUE， 反 之 返回 FALSE 


A 或 者 B 为 NULL 则 返 ; RA 大 于 B 则 返 
反之 返回 FALSE 


A 或 者 B 为 NULL 则 返回 NULL; 如 果 A 大 于 或 等 于 B 则 返回 
TRUE， 反 之 返回 FALSE 


A，B 或 者 C 任 一 为 NULL ， 则 结果 为 NULL。 如 果 A 的 
日 小 于 或 等 于 C， 则 结果 为 TRUE， 反 之 为 
过 用 NOT 关 键 字 则 可 达到 相反 的 效果 (Hive 
中 新 增 ) 


如 果 A 等 于 NULL 则 返回 TRUE; 反 之 返回 FALSE 


A 不 等 于 NULL 则 返回 TRUE; 反 之 返回 FALSE 


B 是 一 个 SQL 下 的 简单 正则 表达 式 ， 如 果 人 A 与 其 匹配 的 话 ， 
串 返回 TRUE; 反 之 返回 FALSE。B 的 表达 式 说 明 如 
: "Xx%’ 表示 A 必须 以 字母 x? 开头 ，’'%x’ 表 示人 A 必须 以 字 
Xx’ 结尾 ， 而 '%x%’ 表 示人 A 包含 有 字母 *x?， 可 以 位 于 开头 ， 
再 尾 或 者 子 符 串 宁国 。 类 似 地 ， 下 划 线 ，: 匹 配 单个 字符 。B 
须要 和 整个 字符 串 A 相 匹配 才 行 .如 果 使 用 NOT 关 键 字 则 可 
日 反 的 效果 


一 个 正则 表达 式 ， 如 忆 其 相 匹配 ， 则 返回 TRUE”; 反 
I 匹配 使 用 以 中 的 正则 表达 式 接 口 实现 
pe 正则 规则 也 依据 其 中 的 规则 。 例 如 ， 正 则 表达 式 必 
整个 字符 串 A 相 匹配 ， 而 不 是 只 需 与 其 子 字 符 串 匹配 。 
正则 表达 式 请 参阅 后 面 更 多 信息 


后 面 我 们 将 详细 讨论 下 LIKE 和 RLIKE( 请 看 第 6.2.3 节 “LIKE 和 
RLIKE”)。 首先 ， 我 们 先 说 明 下 用 户 应 该 明白 的 关于 浮 点 数 比 较 的 内 


di 


= 


6.2.2 ”关于 浮 点 数 比较 


浮 点 数 比 较 的 一 个 常见 陷阱 出 现在 不 同类 型 间作 比较 的 时 候 (也 
就 是 FLOAT 和 DOUBLE 比 较 ) 。 思 考 下 面 这 个 对 于 员工 表 的 查询 语 


句 ， 该 语句 将 返回 员工 姓名 、 工 资 和 联邦 税 ， 过 滤 条 件 是 薪水 的 减免 
税 款 超过 0.2 (20%) : 


hive> SELECT name, salary, deductions['Federal Taxes'] 


> FROM employees WHERE deductions['Federal Taxes'] > 0.2; 
John Doe 100000.0 
Mary Smith 80000.0 
Boss Man 200000.0 
Fred Finance 150000.0 


等 一 下 ! 为 什么 deductions['Federal Taxes'] = 0.2 的 记录 也 被 输出 
Te 


这 是 个 Hive 的 Bug 吗 ?确实 有 个 issue 是 关于 这 个 问题 的 ， 但 是 其 
实际 上 反映 了 内 部 是 如 何 进行 浮 点 数 比 较 的 ， 这 个 问题 几乎 影响 了 在 
现在 数字 计算 机 中 所 有 使 用 各 种 各 样 编程 语言 编写 的 软件 (请 参阅 


https://issues.apache.org/jira/browse/HIVE-2586) 。 


当 用 户 写 一 个 浮 点 数 时 ， 比 如 0.2，Hive 会 将 该 值 保存 为 DOUBLE 
型 的 。 我 们 之 前 定义 deductions 这 个 map 的 值 的 类 型 是 FLOAT 型 的 ， 这 
意味 着 Hive 将 隐 式 地 将 税收 减免 值 转换 为 DOUBLE 类 型 后 再 进行 比 
较 。 这 样 应 该 是 可 以 的 ， 对 吗 ? 


事实 上 ， 这 样 行 不 通 。 这 里 解释 下 为 什么 不 能 。 数 字 0.2 不 能 够 使 
用 FLOAT 或 DOUBLE 进 行 准确 表示 。 (参阅 
http://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html， 深 入 
探讨 浮 点 数 问题 ，。 在 这 个 例子 中 ，0.2 的 最 近似 的 精确 值 应 略 大 于 
0.2， 也 就 是 0.2 后 面 的 若干 个 0 后 存在 非 零 的 数值 。 


为 了 简化 一 点 ， 实 际 上 我 们 可 以 说 0.2 对 于 FLOAT 类 型 是 
0.2000001， 而 对 于 DOUBLE 类 型 是 0.200000000001。 这 是 因为 一 个 8 
个 字 世 的 DOUBLE 值 具有 更 多 的 小 数位 〈 也 就 是 小 数 点 后 的 位 数 ) 。 
当 表 中 的 FLOAT 值 通过 Hive 转 换 为 DOUBLE 值 时 ， 其 产生 的 DOUBLE 
值 是 0.200000100000， 这 个 值 实 际 要 比 0.200000000001 大 。 这 就 是 为 什 
么 这 个 查询 结果 像 是 使 用 了 >= 而 不 是 > 了 。 


这 个 问题 并 非 仅仅 存在 于 Hive 中 或 Java 中 (Hive 是 使 用 Java 实 现 
， 而 是 所 有 使 用 IEEE 标 准 进行 浮 点 数 编码 的 系统 中 存在 的 一 个 普 
通 的 问题 。 


然而 ，Hive 中 有 两 种 规避 这 个 问题 的 方法 。 


首先 ， 如 果 我 们 是 从 TEXTFILE 文 本 文件 (请 参考 第 15 章 内 容 ) 中 读 
取 数 据 的 话 ， 也 就 是 目前 为 止 我 们 所 假定 使 用 的 存储 格式 ， 那 么 Hive 
会 从 数据 文件 中 读 取 字符 串 “0.2”， 然 后 将 其 转换 为 一 个 真实 的 数字 。 
我 们 可 以 在 表 模 式 中 定义 对 应 的 字段 类 型 为 DOUBLE 而 不 是 FLOAT 。 
这 样 我 们 就 可 以 对 deductions['Federal Taxes'] 这 个 DOUBLE 值 和 0.2 这 个 
DOUBLE 值 进行 比较 。 不 过 ， 这 种 变化 会 增加 我 们 查询 时 所 需 的 内 存 
消耗 。 同 时 ， 如 果 存 储 格式 是 二 进 制 文件 格式 〈 如 SEQUENCEEFILE 
第 15 章 将 会 进行 讨论 ) ) 的 话 ， 我 们 也 不 能 简单 地 进行 这 样 的 改 
人 O 


第 2 个 规避 方案 是 显 式 地 指出 0.2 为 FLOAT 类 型 的 。Java 中 有 一 个 很 好 
的 方式 能 够 达到 这 个 目的 ， 只 需要 在 数值 末尾 加 上 字母 F 或 f( 例 如 ， 
0.2f)。 不 斑 的 是 ，Hive 并 不 支持 这 种 语法 ， 这 里 我 们 必须 使 用 cast 操 作 


A 


符 。 


下 面 这 个 十 修改 后 的 查询 语句 ， 其 将 0.2 类 型 转换 为 FLOAT 类 型 
了 。 通 过 这 个 修改 ， 返 回 结 采 是 符合 预期 的 : 


hive> SELECT name, salary, deductions['Federal Taxes'] FROM employees 
> WHERE deductions['Federal Taxes'] > cast(0.2 AS FLOAT); 


Boss Man 200000.0 0.3 
Fred Finance 150000.0 0.3 


注意 cast 操 作 符 内 部 的 语法 : 数值 AS FLOAT 。 
实际 上 ， 还 有 第 3 种 解决 方案 ， 即 : 和 钱 相 关 的 都 避免 使 用 浮 点 
数 。 


TS gt 


对 浮 点 数 进 行 比较 时 ， 需 要 保持 极端 前 慎 的 态度 。 要 避免 任 
何 从 罕 类 型 隐 式 转换 到 更 广泛 类 型 的 操作 。 


6.2.3 LIKE 和 RLIKE 


表 6-6 描述 了 LIKE 和 RLIKE 谓 词 操 作 符 。 用 户 可 能 在 之 前 已 经 见 
过 LIKE 的 使 用 了 ， 因 为 其 是 一 个 标准 的 SQL 操 作 符 。 其 可 以 让 我 们 通 
过 字符 串 的 开头 或 结尾 ， 以 及 指定 特定 的 子 字 符 串 ， 或 当 子 字符 串 出 
现在 字符 串 内 的 任何 位 置 时 进行 匹配 。 

例如 ， 下 面 3 个 查询 依次 分 别 选 择 出 了 住址 中 街道 是 以 字符 串 Ave 


结尾 的 雇员 名 称 和 住址 、 城 市 是 以 0 开头 的 雇员 名 称 和 住址 和 街道 名 
称 中 包含 有 Chicago 的 雇员 名 称 和 住址 : 


hive> SELECT name, address.street FROM employees WHERE address.street LIKE '%Ave.',; 
John Doe 1 Michigan Ave. 
Todd Jones 200 Chicago Ave. 


hive> SELECT name, address.city FROM employees WHERE address.city LIKE '0%'; 

Todd Jones Oak Park 

Bill King Obscuria 

hive> SELECT name, address.street FROM employees WHERE address.street LIKE '%Chi%',; 
Todd Jones 200 Chicago Ave. 


RLIKE 子 句 是 Hive 中 这 个 功能 的 一 个 扩展 ， 其 可 以 通过 Java 的 正 
则 表达 式 这 个 更 强大 的 语言 来 指定 匹配 条 件 。 不 过 本 书 中 不 会 介绍 正 
则 表达 式 的 语法 和 功能 。 表 6-6 中 的 RLIKE 项 有 关于 正则 表达 更 详细 信 
息 介绍 的 链接 。 这 里 ， 我 们 通过 一 个 例子 来 展示 它们 的 用 法 ， 这 个 例 
子 会 从 employees 表 中 查找 所 有 住址 的 街道 名 称 中 含有 单词 Chicago 或 
Ontario 的 雇员 名 称 和 街道 信息 : 


hive> SELECT name, address.street 
> FROM employees WHERE address.street RLIKE '.*(Chicago|lOntario).*',; 


Mary Smith 100 Ontario St. 
Todd Jones 200 Chicago Ave. 


关键 字 RLIKE 后 面 的 的 字符 串 表 达 如 下 含义 : 字符 串 中 的 点 号 


(.) 表示 和 任意 的 字符 匹配 ， 星 号 (*) 表示 重复 “左边 的 字符 
串 ” 《在 以 上 所 示 2 个 例子 中 为 点 号 ) 零 次 到 无 数 次 。 表 达 式 (xy) 表 示 
和 x 或 者 y 匹 配 。 


不 过 , “Chicago” 或 者 “Ontario" 字 符 串 前 可 能 没有 其 他 任何 字符 ， 
而 且 它 们 后 面 也 可 能 不 含有 其 他 任何 字符 。 当 然 ， 我 们 也 可 以 通过 2 个 
LIKE 子 句 来 改写 这 个 例子 为 如 下 这 个 样子 : 


SELECT name, address FROM employees 


WHERE address.street LIKE '%Chicago%' OR address.street LIKE '%Ontario%'; 


通过 正则 表达 式 可 以 比如 上 这 种 通过 多 个 LIKE 了 于 人 句 进 行 过 滤 表 达 
更 丰富 的 匹配 人 条件。 


天 于 Hive 中 通过 Java 实 现 的 正则 表达 式 的 更 详细 信息 ， 请 查看 如 
下 链接 中 关于 Java 的 正则 表达 式 语法 部 分 的 介绍 : 
http://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.html， 或 者 
可 以 参考 Tony Stubblebine (OReilly) 所 闭 的 《正则 表达 式 参 考 手 册 》 以 
及 Jan Goyvaerts 和 Steven Levithan (OReilly) 所 闭 的 《正则 表达 式 
Cookbook》， 也 可 以 参考 Jeffrey E.F. Friedl (O’Reilly) 所 著 的 《精通 正 
则 表达 式 - (第 三 版 ，》。 


6.3 GROUP BY 语句 


GROUP BY 语句 通常 会 和 聚合 范 数 一 起 使 用 ， 按 照 一 个 或 者 多 个 
列 对 结果 进行 分 组 ， 然 后 对 每 个 组 执行 聚合 操作 。 


我 们 重新 看 下 第 4.3.2 人 “外 部 表 ? 中 所 介绍 的 股价 交易 表 stocks。 如 
下 这 个 查询 语句 按照 苹果 公司 股票 (股票 代码 APPL) 的 年 份 对 股票 记 
采 进 行 分 组 ， 然 后 计算 每 年 的 平均 收盘 价 : 


hive> SELECT year(ymd), avg(price close) FROM stocks 
> WHERE exchange = 'NASDAQ' AND Symbol = 'AAPL' 
> GROUP BY year(ymd); 


25.578625440597534 
20.193676221040867 
32.46102808021274 
53.88968399108163 
41.540079275138766 
41.65976212516664 
37.56268799823263 
52.49553383386182 
54.80338610251119 
41.02671956450572 
34.0813495847914 


HAVING 语 句 


HAVING 子 句 允 许 用 户 通 过 一 个 简单 的 语法 完成 原本 需要 通过 子 查 询 

才能 对 GROUP BY 语句 产生 的 分 组 进行 条 件 过 滤 的 任务 。 如 下 是 对 前 

0 年 平均 收盘 价 
$50.0: 


hive> SELECT year(ymd)，avg(price_close) FROM stocks 
> WHERE exchange = 'NASDAQ' AND Symbol = 'AAPL' 
> GROUP BY year(ymd ) 
> HAVING avg(price close) > 50.0; 
53.88968399108163 


52.49553383386182 
54.80338610251119 
57.77071460844979 
71.74892876261757 
52.401745992993554 


如 果 没 使 用 HAVING 子 句 ， 那 么 这 个 查询 将 需要 使 用 一 个 散 套 
SELECT 子 查询 : 


hive> SELECT s2.year, s2.avg FROM 
> (SELECT year(ymd) AS year, avg(price close) AS avg FROM stocks 
> WHERE exchange = 'NASDAQ' AND Symbol = 'AAPL' 
> GROUP BY year(ymd)) s2 


> WHERE S2.avg > 50.0,; 
1987 53.88968399108163 


6.4 JOIN 语句 
Hive 支 持 通常 的 SQL JOIN 语句 ， 但 是 只 支持 等 值 连接 。 


6.4.1 INNER JOIN 


内 连接 (INNER JOIN) 中 ， 只 有 进行 连接 的 两 个 表 中 都 存在 与 连 
接 标 准 相 匹 配 的 数据 才 会 被 保留 下 例如 ， ee 、 
司 的 股价 (股票 代码 AAPL) 和 IBM 公 司 的 股价 (股票 代码 IBM) 进行 
比较 。 股 票 表 stocks 进 行 自 连接 ， 连接 条 件 是 ymd 字 段 (也 就 是 year- 
a 内 容 必须 相等 。 我 们 也 称 ymd 字 段 是 这 个 查询 语句 中 的 连 
过 关键 字 。 


hive> SELECT a.ymd，a.price_close，b,.price_close 
FROM stocks a JOIN stocks b ON a.ymd = b.ymd 
= 'IBM',; 


WHERE a.symbol = 'AAPL' AND b.symbol 
214.01 132. 
214.38 130. 
210.97 130. 
210.58 129. 
211.98 130. 
210 ,11 129. 


ON 子 句 指定 了 两 个 表 间 数据 进行 连接 的 条 件 。WHERE 子 句 限 制 
了 左边 表 是 AAPL 的 记录 ， 右 边 表 是 IBM 的 记录 。 同 时 用 户 可 以 看 到 这 
个 查询 中 需要 为 两 个 表 分 别 指定 表 别 名 。 


众所周知 ，IBM 要 比 Apple 老 得 多 。IBM 也 比 Apple 具 有 更 久 的 股 
票 交 易 记 录 。 不 过 ， 既 然 这 是 一 个 内 连接 (INNER JOIN) ，IBM 的 
0 7 日 前 的 记录 就 会 被 过 滤 挤 ， 也 就 是 Apple 股 票 交 易 日 的 第 一 


标准 SQL 是 文 持 对 连接 关键 词 进行 非 等 值 连接 的 ， 例 如 下 面 这 个 
显示 Apple 和 IBM 对 比 数据 的 例子 ， 连 接 条 件 是 Apple 的 股票 交易 日 期 
要 4 日 期 早 。 这 个 将 会 返回 很 少数 据 (如 例 6-1 所 
不 ) |! 


例 6-1 ”Hive 中 不 支持 的 查询 语句 


SELECT a.ymd, a.price close, b.price_close 
FROM stocks a JOIN stocks b 
ON a.ymd <= b.ymd 


WHERE a.symbol = 'AAPL' AND b.symbol = 'IBM',; 


这 个 语句 在 Hive 中 是 非法 的 ， 主 要 原因 是 通过 MapReduce 很 难 实 
现 这 种 类 型 的 连接 。 不 过 因为 Pig 提 供 了 一 个 交叉 生产 功能 ， 所 以 在 
1 可 以 实现 这 种 连接 的 ， 尽 管 Pig 的 原生 连接 功能 并 不 支持 这 种 
填 依 。 


同时 ，Hive 目 前 还 不 文 持 在 ON 子 句 中 的 谓词 间 使 用 OR。 


通过 下 面 的 例子 我 们 来 看 下 非 自 连接 操作 。dividends 表 的 数据 同 
样 来 和 目 于 infochimps.org， 正 如 在 第 4.3.2 玫 中 所 介绍 的 : 


CREATE EXTERNAL TABLE IF NOT EXISTS dividends ( 
ymd STRING, 
dividend FLOAT 


) 
PARTITIONED BY (exchange STRING, Symbol STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


下 面 这 个 例子 就 是 苹果 公司 的 stocks 表 和 dividends 表 按照 字段 ymd 
和 字段 symbol 作 为 等 值 连接 键 的 内 连接 (INNER JOIN) : 


hive> SELECT Ss.ymd, s.symbol, s.price_ close, d.dividend 
> FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND S,Symbol = d.symbol 
,Symbol = 'AAPL'; 


征 的 ， 次 股 已， 而 县 近期 刚刚 豆 布 会 再 
次 文 付 股 电 ! 注意 到 因为 我 们 使 用 了 内 连接 ， 我 们 只 看 到 每 隔 3 个 月 的 
Io 通常 支付 股息 的 竺 间 表 会 在 宣 是 布 季 度 业 绩 报 告 时 进行 公布 。 


用 户 可 以 对 多 于 2 张 表 的 多 张 表 进 行 连接 操作 。 下 面 我 们 来 对 
Apple 公 司 、IBM 公 司 和 GE 公司 并 排 进行 比较 : 


hive> SELECT a.ymd, a.price close, b.price close , c.price close 
> FROM stocks a JOIN stocks b ON a.ymd = b.ymd 
> JOIN stocks c ON a.ymd = c.ymd 
> WHERE a.symbol = 'AAPL' AND b.symbol = 'IBM' AND c.symbol = 'GE'; 
132.45 15.45 
130.85 15.53 


130.0 15.45 
129.55 16.25 
130.85 16.6 
129.48 16.76 


大 多 数 情况 下 ，Hive 会 对 每 对 JOIN 连接 对 象 启动 一 个 MapReduce 
2 。 本 例 中 ， 会 首先 启动 一 个 MapReduce job 对 表 a 和 表 b 进 行 连 接 操 
作 ， 然 后 会 再 启动 一 个 MapReduce job 将 第 一 个 MapReduce job 的 输出 
和 表 cj 进 行 连接 操作 。 


本 
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为 什么 不 是 表 b 和 表 c 先 进行 连接 操作 呢 ? 这 是 因为 Hive 总 是 
按照 从 左 到 右 的 顺序 执行 的 。 


不 过 ， 这 个 例子 实际 上 得 益 于 一 个 优化 ， 这 个 后 面 我 们 将 进行 讨 


论 。 


6.4.2 ”JOIN 优化 


在 前 面 的 那个 例子 中 ， 每 个 ON 子 句 中 都 使 用 到 了 a.ymd 作 为 其 中 
一 个 JOIN 连接 键 。 在 这 种 情况 下 ，Hive 通 过 一 个 优化 可 以 在 同一 个 
MapReduce job 中 连接 3 张 表 。 同 样 ， 如 果 b.ymd 也 用 于 ON 子 句 中 的 
话 ， 那 么 也 会 应 用 到 这 个 优化 。 
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当 对 3 个 或 者 更 多 个 表 进 行 JOIN 连 接 时 ， 如 果 每 个 ON 子 句 都 
使 用 相同 的 连接 键 的 话 ， 那 么 只 会 产生 一 个 MapReduce job 。 


Hive 同 时 假定 查询 中 最 后 一 个 表 是 最 大 的 那个 表 。 在 对 每 行 记录 
进行 连接 操作 时 ， 它 会 尝试 将 其 他 表 缓存 起 来 ， 然 后 扫描 最 后 那个 表 
放行 计算 "因此 ， 用 户 需要 保证 连续 查询 中 的 表 的 大 小 从 左 到 右 是 人 
次 增加 的 。 


回想 下 之 前 对 表 stocks 和 表 dividends 进 行 的 连接 操作 。 我 们 错误 地 
将 最 小 的 表 dividends 放 在 了 最 后 面 : 


SELECT Ss.ymd, s.symbol, s.price_ close, d.dividend 


FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbol 
WHERE Ss.symbol = 'AAPL'; 


应 该 交换 下 表 stocks 和 表 dividends 的 位 置 ， 如 下 所 示 : 


SELECT Ss.ymd, s.symbol, s.price close, d.dividend 
FROM dividends d JOIN stocks s ON s.ymd = d.ymd AND s.symbol = d.symbol 


WHERE S| .Symbol = 'AAPL'; 


不 过 因为 这 个 数据 集 并 不 大 ， 所 以 并 没有 明显 地 看 出 和 之 前 执行 
的 性 能 的 差别 ， 但 是 对 于 大 数据 集 ， 用 户 将 会 感知 到 这 个 优化 。 


幸运 的 是 ， 用 户 并 非 总 是 要 将 最 大 的 表 放 置 在 查询 语句 的 最 后 面 
的 。 这 是 因为 Hive 还 提供 了 一 个 “标记 ”机 制 来 显 式 地 告 之 查询 优化 器 
哪 张 表 十 大 表 ， 使 用 方式 如 下 : 


SELECT /*+STREAMTABLE (s) */s.ymd, s.symbol, s.price_close, d.dividend 


FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbol 
WHERE Ss.symbol = 'AAPL'; 


现在 Hive 将 会 签 试 将 表 stocks 作 为 驱动 表 ， 即 使 其 在 查询 中 不 是 
位 于 最 后 面 的 。 


还 有 另外 一 个 类 似 的 非常 重要 的 优化 叫做 map-side JOIN, 用 户 可 以 
参考 第 6.4.9 世 中 的 内 容 。 


6.4.3 LEFT OUTER JOIN 
左 外 连接 通过 关键 字 LEFT OUTER 进 行 标 识 : 


hive> SELECT Ss.ymd, s.symbol, s.price close, d.dividend 

> FROM stocks S LEFT OUTER JOIN dividends d ON s.ymd = d.ymd AND s.symbol = 
d.symbol 

> WHERE Ss.symbol = 'AAPL'，; 


在 这 种 JOIN 连 接 操作 中 ，JOIN 操 作 符 左边 表 中 符合 WHERE 子 句 


的 所 有 记录 将 会 被 返回 。JOIN 操 作 符 右边 表 中 如 有 果 没 有 符合 ON 后 面 
连接 条 件 的 记录 时 ， 那 么 从 右边 表 指定 选择 的 列 的 值 将 会 是 NULL 。 


因此 ， 在 这 个 结果 和 集中， 我 们 看 到 Apple 公 司 的 股票 记录 都 返回 
了 ， 而 d.dividend 字 段 的 值 通 常 是 NULL， 除 了 当天 有 支付 股息 的 那 条 
记录 (也 就 是 输出 中 的 1987 年 5 月 11 日 那天 的 记录 ) 。 


6.4.4 OUTER JOIN 


在 我 们 讨论 其 他 外 连接 之 前 ， 让 我 们 来 讨论 一 个 用 户 应 该 明日 的 


问题 。 


回想 下 ， 前 面 我 们 说 过 ， 通 过 在 WHERE 子 句 中 增加 分 区 过 滤 右 
可 以 加 快 查询 速度 。 为 了 提高 前 面 那 个 查询 的 执行 速度 ， 我 们 可 以 对 
两 张 表 的 exchange 字 段 增加 谓词 限定 : 


hive> SELECT s.ymd, s.symbol, s.price close, d.dividend 
> FROM stocks s LEFT OUTER JOIN dividends d ON s.ymd = d.ymd AND s.symbol = 
d.symbol 
> WHERE Ss.symbol = 'AAPL' 
> AND s.exchange = 'NASDAQ' AND d.exchange = 'NASDAQ'; 
AAPL 


AAPL 
AAPL 
AAPL 
AAPL 


不 过 ， 这 时 我 们 发 现 输出 结果 改变 了 ， 虽 然 我 们 可 能 认为 我 们 不 
过 增加 了 一 个 优化 ! 我 们 重新 获得 每 年 4 条 左右 的 股票 交易 记录 ， 而 且 
我 们 发 现 每 年 对 应 的 股息 值 都 是 非 NULL 的 。 换 句 话 说， 这 个 效果 和 
之 前 的 内 连接 (INNER JOIN) 是 一 样 的 ! 


在 大 多 数 的 SQL 实现 中 ， 这 种 现象 实际 上 是 比较 常见 的 。 之 所 以 
发 生 这 种 情况 ， 是 因为 会 先 执行 JOIN 语句 ， 然 后 再 将 结果 通过 
WHERE 语句 进行 过 滤 。 在 到 达 WHERE 语 名 时，d.exchange 字 段 中 大 
， 因 此 这 个 “优化 ”实际 上 过 滤 掉 了 那些 非 股 息 支 付 日 
» 了 YY O 


一 个 直接 有 效 的 解决 方式 是 移 除 挥 WHERE 语 句 中 对 dividends 表 
的 过 滤 条 件 ， 也 就 是 去 除 掉 d.exchange= 'NASDAQ"' 这 个 限制 条 件 。 


hive> SELECT Ss.ymd, s.symbol, s.price close, d.dividend 

> FROM stocks s LEFT OUTER JOIN dividends d ON s.ymd = d.ymd AND s.symbol = 
d.symbol 

> WHERE Ss.symbol = 'AAPL' AND s.exchange = 'NASDAQ'，; 


AAPL 80.25 NULL 
AAPL 79.0 NULL 
AAPL 77.0 ©0.015 
AAPL 75 .5 NULL 
AAPL 78 .5 NULL 


这 种 方式 并 非 很 令 人 满意 。 用 户 可 能 会 想 知 道 是 否 可 以 将 
WHERE 语 句 中 的 内 容 放 置 到 ON 语句 里 ， 至 少 知道 分 区 过 滤 条 件 是 否 
可 以 放置 在 ON 语句 中 。 对 于 外 连接 (OUTER JOIN) 来 说 是 不 可 以 这 
样 的 ， 尽 管 Hive Wiki 中 的 文章 宣传 其 应 该 是 可 以 工作 的 (参考 链接 : 
https:/cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins 


) 。 


hive> SELECT s.ymd, s.symbol, s.price close, d.dividend 
> FROM stocks s LEFT OUTER JOIN dividends d 
> ON s.ymd = d.ymd AND s.symbol = d.symbol 
> AND s.symbol = 'AAPL' AND s.exchange = 'NASDAQ' AND d.exchange = 'NASDAQ'; 


74.75 NULL 
572.0 NULL 
74.0 NULL 
577.0 NULL 
73.12 NULL 
571.25 NULL 
71.25 NULL 
560.0 NULL 


对 于 外 连接 (OUTER JOIN) 会 忽略 掉 分 区 过 滤 条 件 。 不 过 ， 对 于 内 
连接 (INNER JOIN) 使 用 这 样 的 过 滤 谓 词 确实 是 起 作用 的 ! 


垃 运 的 是 ， 有 一 个 适用 于 所 有 种 类 连接 的 解决 方案 ， 那 就 是 使 用 
租 套 SELECT 语句 : 


hive> SELECT s,ymd，Ss,Symbol，s,price_close，d.dividend FROM 
> (SELECT * FROM stocks WHERE Symbol = 'AAPL' AND exchange = 'NASDAQ') S 
> LEFT OUTER JOIN 
> (SELECT * FROM dividends WHERE Symbol = 'AAPL' AND exchange = 'NASDAQ') d 
> ON s.ymd = d.ymd; 


1988-02-10 


1988-02-17 


典 套 SELECT 语 句 会 按照 要 求 执行 “下 推 * 过 程 ， 在 数据 进行 连接 
操作 之 前 会 先进 行 分 区 过 滤 。 


WHERE 语句 在 连接 操作 执行 后 才 会 执行 ， 因 此 WHERE 语句 
应 该 只 用 于 过 滤 那 些 非 NULL 值 的 列 值 。 同 时 ， 和 Hive 的 文档 说 
明 中 相反 的 是 ， ON 语句 中 的 分 区 过 滤 条 件 外 连接 (OUTER JOIN) 
中 是 无 效 的 ， 不 过 在 内 连接 (INNER JOIN) 中 是 有 效 的 。 


6.4.5 RIGHTI OUTER JOIN 


右 外 连接 (RIGHT OUTER JOIN) 会 返回 右边 表 所 有 符合 
WHERE 语 句 的 记录 。 左 表 中 匹配 不 上 的 字段 值 用 NULL 代 替 。 


这 里 我 们 调整 下 stocks 表 和 divideneds 表 的 位 置 来 执行 右 外 连接 ， 
并 保留 SELECT 语句 不 变 : 


hive> SELECT Ss.ymd, s.symbol, s.price close, d.dividend 

> FROM dividends d RIGHT OUTER JOIN stocks s ON d.ymd = s.ymd AND d.symbol = 
S,Symbol 

> WHERE S.Symbol = 'AAPL'; 


1987-05-07 AAPL 80.25 NULL 


1987-05-08 AAPL 79.0 NULL 
1987-05-11 AAPL 77.0 0.015 
1987-05-12 AAPL 75 .5 NULL 
1987-05-13 AAPL 78 .5 NULL 


6.4.6 FULL OUTER JOIN 


最 后 介绍 的 完全 外 连接 (FULL OUTER JOIN) 将 会 返回 所 有 表 中 
符合 WHERE 语句 条 件 的 所 有 记录 。 如 果 任 一 表 的 指定 字段 没有 符合 
条 件 的 值 的 话 ， 那 么 就 使 用 NULL 值 替代 。 


如 琳 我 们 将 前 面 的 查询 改写 成 一 个 完全 外 连接 查询 的 话 ， 事 实 上 
获得 的 结果 和 之 前 的 一 样 。 这 是 因为 不 可 能 存在 有 股 恩 文 付 记录 而 没 
有 对 应 的 股票 交易 记录 的 情况 。 


hive> SELECT Ss.ymd, s.symbol, s.price close, d.dividend 

> FROM dividends d FULL OUTER JOIN stocks s ON d.ymd = s.ymd AND d.symbol = 
S,Symbol 

> WHERE S.Symbol = 'AAPL'，; 


6.4.7 LEFT SEMI-JOIN 


左 半 开 连接 (LEFT SEMI-JOIN) 会 返回 左边 表 的 记录 ， 前 提 是 其 
记录 对 于 右边 表 满 足 ON 语 句 中 的 判定 条 件 。 对 于 常见 的 内 连接 
(INNER JOIN) 来 说 ， 这 是 一 个 特殊 的 、 优 化 了 的 情况 。 大 多 数 的 
SQL 方言 会 通过 IN ... EXISTS 结 构 来 处 理 这 种 情况 。 例 如 下 面 的 例 6-2 
中 所 示 的 查询 ， 其 将 试图 返回 限定 的 股息 支付 日 内 的 股票 交易 记录 ， 
不 过 这 个 查询 Hive 是 不 支持 的 。 


例 6-2 ”Hive 中 不 支持 的 查询 


SELECT Ss.ymd, s.symbol, s.price close FROM stocks s 
WHERE s.ymd, s.symbol IN 


(SELECT d.ymd, d.symbol FROM dividends d); 


不 过 ， 用 户 可 以 使 用 如 下 的 LEFT SEMI JOIN 语法 达到 同样 的 目 


hive> SELECT Ss.ymd, s.symbol, s.price _ close 


> FROM stocks s LEFT SEMI JOIN dividends d ON s.ymd = d.ymd AND s.symbol = 
d.symbol; 


1962-11-05 
1962-08-07 
1962-05-08 
1962-02-06 


请 注意 ，SELECT 和 WHERE 语 句 中 不 能 引用 到 右边 表 中 的 字段 。 


Fr 一 
| 


> 共和 


Hive 不 支持 右 半 开 连接 (RIGHT SEMI-JOIN) 。 


SEMI-JOIN 比 通常 的 INNER JOIN 要 更 高 效 ， 原 因 如 下 : 对 于 左 表 
中 一 条 指定 的 记录 ， 在 右边 表 中 一 旦 找到 匹配 的 记录 ，Hive 就 会 立即 


停止 扫描 。 从 这 点 来 看 ， 左 边 表 中 选择 的 列 是 可 以 预测 的 。 
6.4.8” 币 卡尔 积 JOIN 


华 卡 尔 积 是 一 种 连接 ， 表 示 左 边 表 的 行 数 乘 以 右边 表 的 行 数 等 于 
向 卡尔 结果 集 的 大 小 。 也 就 是 说 如 果 左 边 表 有 5 行 数据 ， 而 右边 表 有 6 
行 数据 ， 那 么 产生 的 结果 将 是 30 行 数据 : 


SELECTS * FROM stocks JOIN dividends; 


如 上 面 的 查询 ， 以 stocks 表 和 dividends 表 为 例 ， 实 际 上 很 难 找 到 
合适 的 理由 来 执行 这 类 连接 ， 因 为 一 只 股票 的 股 恩 通常 并 非 和 男 一 只 
股票 配对 。 此 外 ， 管 卡尔 积 会 产生 大 量 的 数据 。 和 其 他 连接 类 型 不 
司 ， 币 卡尔 积 不 是 并 行 执行 的 ， 而 且 使 用 MapReduce 计 算 架 构 的 话 ， 
任何 方式 都 无 法 进行 优化 。 

这 里 非常 有 必要 指出 ， 如 果 使 用 了 错误 的 连接 (JOIN) 语法 可 能 
会 导致 产生 一 个 执行 时 间 长 、 运 行 缓慢 的 簿 卡尔 积 查 询 。 例 如 ， 如 下 
这 个 查询 在 很 多 数据 库 中 会 被 优化 成 内 连接 (INNER JOIN) ， 但 是 在 
Hive 中 没有 此 优化 : 


hive > SELECT * FROM stocks JOIN dividends 


> WHERE stock.symbol = dividends.symbol and stock.symbol='AAPL'; 


在 Hive 中 ， 这 个 查询 在 应 用 WHERE 语句 中 的 谓词 条 件 前 会 先进 行 
完全 第 卡尔 积 计算 。 这 个 过 程 将 会 消耗 很 长 的 时 间 。 如 采 设 置 属性 
hive.mapred.mode 值 为 strict 的 话 ，Hive 会 阻止 用 户 执行 第 卡 尔 积 查询 。 
第 10 章 “调整 ”中 我 们 将 更 详尽 地 讨论 这 个 功能 。 


人 提示 
省 卡尔 积 在 一 些 情况 下 是 很 有 用 的 。 例 如 ， 假 设 有 一 个 表 表 
示 用 户 仿 好 ， 男 有 一 个 表 表 示 新 闻 文 章 ， 同 时 有 一 个 算法 会 推测 


出 用 户 可 能 会 喜欢 读 哪些 文章 。 这 个 时 候 吏 需要 使 用 洗 卡 尔 积 生 
成 所 有 用 户 和 所 有 网 页 的 对 应 天 系 的 集合 。 


6.4.9 map-side JOIN 


如 果 所 有 表 中 只 有 一 张 表 是 小 表 ， 那 么 可 以 在 最 大 的 表 通 过 
mapper 的 时 候 将 小 表 完 全 放 到 内 存 中 。Hive 可 以 在 map 端 执行 连接 过 
程 〈 称 为 map-side JOIN) ， 这 是 因为 Hive 可 以 和 内 存 中 的 小 表 进 行 逐 
一 匹配 ， 从 而 省 略 掉 常 规 连接 操作 所 需要 的 reduce 过 程 。 即 使 对 于 很 
小 的 数据 集 ， 这 个 优化 也 明显 地 要 快 于 常规 的 连接 操作 。 其 不 仅 减少 
了 reduce 过 程 ， 而 且 有 时 还 可 以 同时 减少 map 过 程 的 执行 步骤 。 


stocks 表 和 dividends 表 之 间 的 连接 操作 也 可 以 利用 到 这 个 优化 ， 
中 的 数据 集 很 小 ， 已 经 可 以 全 部 放 在 内 存 中 缓存 起 来 


在 Hive v0.7 之 前 的 版 本 中 ， 如 果 想 使 用 这 个 优化 ， 需 要 在 查询 语 
0 
从 示 : 


SELECT /*+ MAPJOIN(d) */ Ss.ymd，Ss.Symbol，Ss,price_close，d.dividend 


FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbol 
WHERE s.symbol = 'AAPL'; 


在 一 个 比较 快 的 MacBook Pro 笔 记 本 电脑 上 执行 上 面 这 个 优化 后 
的 查询 大 约 需 要 23s， 这 明显 比 优 化 前 执行 所 消耗 的 33s 要 快 。 在 相同 
的 股票 样本 数据 集 上 执行 ， 执 行 速度 提高 了 大 约 30% 。 


从 Hive v0.7 版 本 开始 ， 上 废弃 了 这 种 标记 的 方式 ， 不 过 如 果 增 加 了 
这 个 标记 同样 是 有 ” 效 的 。 如 有 果 不 加 上 这 个 标记 ， 那 么 这 时 用 户 需 要 
设置 属性 hive.auto.convert.JOIN 的 值 “” 为 tue， 这 样 Hive 才 会 在 必要 的 
时 候 启 动 这 个 优化 。 默 认 情 况 下 这 个 属性 的 值 是 false。 


hive> set hive.auto.convert.join=true; 


hive> SELECT Ss.ymd, s.symbol, s.price close, d.dividend 


> FROM stocks s JOIN dividends d ON s.ymd = d.ymd AND s.symbol = d.symbol 
> WHERE Ss.symbol = 'AAPL'，; 


需要 注意 的 是 ， 用 户 也 可 以 配置 能 够 使 用 这 个 优化 的 小 表 的 大 
小 。 如 下 是 这 个 属性 的 默认 值 (单位 是 字 节 ) : 


hive.mapjoin.smalltable.filesize=25000000 


如 果 用 户 期 望 Hive 在 必要 的 时 候 自动 启动 这 个 优化 的 话 ， 那 么 可 
以 将 这 一 个 (或 两 个 ) 属性 设置 在 $8HOME/.hiverc 文 件 中 。 


Hive 对 于 右 外 连接 (RIGHT OUTER JOIN) 和 全 外 连接 (FULL 
OUTER JOIN) 不 支持 这 个 优化 。 


如 有 果 所 有 表 中 的 数据 十 分 桶 的 ， 那 么 对 于 大 表 ， 在 特定 的 情况 下 
同样 可 以 使 用 这 个 优化 ， 详 细 介绍 请 参见 第 9.6 节 “分 桶 表 数 据 存储 ?中 
的 介绍 。 简 单 地 说 ， 表 中 的 数据 必须 是 按照 ON 语句 中 的 键 进 行 分 桶 
的 ， 而 且 其 中 一 张 表 的 分 桶 的 个 数 必须 是 另 一 张 表 分 彬 个 数 的 才干 
倍 。 当 满足 这 些 条 件 时 ， 那 么 Hive 可 以 在 map 阶 段 按照 分 桶 数据 进行 
连接 。 因 此 这 种 情况 下 ， 不 需要 先 获取 到 表 中 所 有 的 内 容 ， 之 后 才 去 
和 另 一 张 表 中 每 个 分 桶 进行 匹配 连接 。 


不 过 ， 这 个 优化 同样 默认 是 没有 开启 的 。 需 要 设置 参数 
hive.optimize.bucketmapJOIN 为 true 才 可 以 开局 此 优化 : 


set hive.optimize.bucketmapJOIN=true; 


如 果 所 涉及 的 分 桶 表 都 具有 相同 的 分 桶 数 ， 而 且 数 据 是 按照 连接 
键 或 桶 的 键 进行 排序 的 ， 那 么 这 时 Hive 可 以 执行 一 个 更 快 的 分 类 -合并 
J JOIN) 。 同 样 地 ， 这 个 优化 需要 需要 设置 如 下 属性 
能 开启 : 


set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat; 


set hive.optimize.bucketmapjoin=true; 
set hive.optimize.bucketmapjoin.sortedmerge=true; 


6.5 ORDER BY 和 SORT BY 


Hive 中 ORDER BY 语句 和 其 他 的 SQL 方言 中 的 定义 是 一 样 的 。 其 
会 对 查询 结果 集 执行 一 个 全 局 排序 。 这 也 就 是 说 会 有 一 个 所 有 的 数据 
都 通过 一 个 reducer 进 行 处 理 的 过 程 。 对 于 大 数据 集 ， 这 个 过 程 可 能 会 
消耗 太 过 漫长 的 时 间 来 执行 。 


Hive 增 加 了 一 个 可 供 选 择 的 方式 ， 也 融 是 SORT BY， 其 只 会 在 每 
个 reducer 中 对 数据 进行 排序 ， 也 束 是 执行 一 个 局 部 排序 过 程 。 这 可 以 


保证 每 个 reducer 的 输出 数据 都 是 有 序 的 (但 并 非 全 局 有 序 ) 。 这 样 可 
以 提高 后 面 进 行 的 全 局 排序 的 效率 。 


对 于 这 两 种 情况 ， 语 法 区 别 仅仅 是 ， 一 个 关键 字 是 ORDER ， 忆 一 
个 关键 字 是 SORT。 用 户 可 以 指定 任意 期 望 进行 排序 的 字段 ， 并 可 以 在 
字段 后 面 加 上 ASC 关 键 字 (默认 的 ， 表 示 按 升序 排序 ， 或 加 DESC 关 
键 字 ， 表 示 按 降序 排序 。 


下 面 是 一 个 使 用 ORDER BY 的 例子 : 


SELECT S.ymd，Ss.Symbol，Ss,price_close 
FROM stocks s 
ORDER BY s.ymd ASC, s.symbol DESC; 


下 面 古 一 个 类 似 的 例子 ， 不 过 使 用 的 是 SORT BY: 


SELECT Ss.ymd, s.symbol, s.price_ close 
FROM stocks s 
SORT BY s.ymd ASC, s.symbol DESC; 


上 面 介 绍 的 两 个 查询 看 上 去 几乎 一 样 ， 不 过 如 果 使 用 的 reducer 的 
个 数 大 于 1 的 话 ， 那 么 输出 结果 的 排序 束 大 不 一 样 了 。 既 然 只 保证 每 个 
人 那么 不 同 reducer 的 输出 束 可 能 会 有 重 和 县 


因为 ORDER BY 操作 可 能 会 导致 运行 时 间 过 长 ， 如 果 属 性 
hive.mapred.mode 的 值 是 strict 的 话 ， 那 么 Hive 要 求 这 样 的 语句 必须 加 
有 LIMIT 语 句 进 行 限 制 。 默 认 情 况 下 ， 这 个 属性 的 值 是 nonstrict， 也 就 
是 不 会 有 这 样 的 限制 。 


6.6 含有 SORT BY 的 DISTRIBUTE BY 


DISTRIBUTE BY 控制 map 的 输出 在 reducer 中 是 如 何 划 分 的 。 
MapReduce job 中 传输 的 所 有 数据 都 是 按照 键 - 值 对 的 方式 进行 组 织 
的 ， 因 此 Hive 在 将 用 户 的 查询 语句 转换 成 MapReduce job 时 ， 其 必须 在 
内 部 使 用 这 个 功能 。 


通常 ， 用 户 不 需要 担心 这 个 特性 。 不 过 对 于 使 用 了 Streaming 特 性 
(请 参考 第 14 章 内 容 ) 以 及 一 些 状态 为 UDAF 《用 户 自 定义 聚合 画 


数 ， 参 见 第 13.4 节 “ 吧 合 画 数 ”中 的 介绍 的 查询 是 个 例外 。 还 有 ， 在 
男 外 一 个 场景 下 ， 使 用 这 些 语句 是 有 用 的 。 


默认 情况 下 ，MapReduce 计 算 框架 会 依据 map 输 入 的 键 计算 相应 
的 哈 希 值 ， 然 后 按照 得 到 的 哈 希 值 将 键 - 值 对 均匀 分 发 到 多 个 reducer 中 
去 。 不 过 不 笠 的 是 ， 这 也 就 意味 着 当 我 们 使 用 SORT BY 时 ， 不 同 
reducer 的 输出 内 容 会 有 明显 的 重 登 ， 至 少 对 于 排列 顺序 而 言 是 这 样 ， 
即使 每 个 reducer 的 输出 的 数据 都 是 有 序 的 。 


假设 我 们 希望 具有 相同 股票 交易 码 的 数据 在 一 起 处 理 。 那 么 我 们 
可 以 使 用 DISTRIBUTE BY 来 保证 具有 相同 股票 交易 码 的 记录 会 分 发 到 
同一 个 reducer 中 进行 处 理 ， 人 然后 使 用 SORT BY 来 按照 我 们 的 期 望 对 数 
据 进 行 排序 。 如 下 这 个 例子 就 演示 了 这 种 用 法 : 


hive> SELECT Ss.ymd, s.symbol, s.price close 
> FROM stocks s 
> DISTRIBUTE BY s.symbol 
> SORT BY s.symbol ASC, s.ymd AScC; 
1984-09-07 AAPL 26.5 
1984-09-10 AAPL 26.37 
1984-09-11 AAPL 26.87 


1984-09-12 AAPL 26.12 
1984-09-13 AAPL 27.5 
1984-09-14 AAPL 27.87 
1984-09-17 AAPL 28.62 
1984-09-18 AAPL 27.62 
1984-09-19 AAPL 27.0 
1984-09-20 AAPL 27.12 


当然 ， 上 面 例 子 中 的 ASC 关 键 字 是 可 以 省 略 掉 的 ， 因 为 其 就 是 缺 
。 这 里 加 上 了 ASC 关 键 字 的 原因 ， 稍 后 我 们 将 会 进行 简要 的 曾 
让 

DISTRIBUTE BY 和 GROUP BY 在 其 控制 着 reducer 是 如 何 接受 一 行 


行 数据 进 行 处 理 这 方面 是 类 似 的 ， 而 SORT BY 则 控制 着 reducer 内 的 数 
据 是 如 何 进行 排序 的 。 


需要 注意 的 是 ，Hive 要 求 DISTRIBUTE BY 语句 要 写 在 DORT BY 
语句 之 前 。 


6.7 CLUSTER BY 


在 前 面 的 例子 中 ，s.symbol 列 被 用 在 了 DISTRIBUTE BY 语句 中 ， 
而 s.symbol 列 和 s.ymd 位 于 SORT BY 语句 中 。 如 果 这 2 个 语句 中 涉及 到 
的 列 完全 相同 ， 而 且 采 用 的 是 升序 排序 方式 (也 就 是 默认 的 排序 方 
式 ) ， 那 么 在 这 种 情况 下 ，CLUSTER BY 就 等 价 于 前 面 的 2 个 语句 ， 
相当 于 是 前 面 2 个 句子 的 一 个 简写 方式 。 


如 下 面 的 例子 所 示 ， 我 们 将 前 面 的 查询 语句 中 SORT BY 后 面 的 
s.ymd 字 段 去 掉 而 只 对 s.symbol 字 段 使 用 CLUSTER BY 语句 : 


hive> SELECT Ss.ymd, s.symbol, s.price close 
> FROM stocks s 
> CLUSTER BY s.symbol; 

2010-02-08 AAPL 194.12 

2010-02-05 AAPL 195.46 

2010-02-04 AAPL 192.05 

2010-02-03 AAPL 199.23 


2010-02-02 AAPL 195.86 
2010-02-01 AAPL 194.73 
2010-01-29 AAPL 192.06 
2010-01-28 AAPL 199.29 
2010-01-27 AAPL 207.88 


因此 排序 限制 中 去 除 掉 了 s.ymd 字 段 ， 所 以 输出 中 展示 的 是 股票 数 
据 的 原始 排序 方式 ， 也 束 古 降序 排列 。 


使 用 DISTRIBUTE BY ... SORT BY 语句 或 其 简化 版 的 CLUSTER 
BY 语句 会 剥夺 SORT BY 的 并 行 性 ， 然 而 这 样 可 以 实现 输出 文件 的 数据 
是 全 局 排序 的 。 


6.8 ”类 型 转换 


在 第 3.1 节 < 基本 数据 关 型 "中 我 们 简要 提 及 了 Hive 会 在 适当 的 时 
候 ， 对 数值 型 数据 类 型 进行 隐 式 类 型 转换 ， 其 关键 字 是 cast。 例 如 ， 
对 不 同 关 型 的 2 个 数值 进行 比较 操作 时 就 会 有 这 种 隐 式 类 型 转换 。 关 于 
这 话题 我 们 在 第 6.2.1 节 "谓词 操作 符 ” 和 第 6.2.2 节 “关于 浮 点 数 比较 "中 
已 经 进行 了 比较 全 面 的 讨论 。 


这 里 我 们 讨论 下 cast0 函 数 ， 用 户 可 以 使 用 这 个 函数 对 指定 的 值 进 
行 显 式 的 类 型 转换 。 


回想 一 下 ， 前 面 我 们 介绍 过 的 employees 表 中 salary 列 是 使 用 
FLOAT 数 据 类 型 的 。 现 在 ， 我 们 假设 这 个 字段 使 用 的 数据 类 型 是 
STRING 的 话 ， 那 么 我 们 如 何 才 能 将 其 作为 FLOAT 值 进行 计算 呢 ? 


如 下 这 个 例子 会 先 将 值 转换 为 FLOAT 类 型 ， 然 后 才 会 执行 数值 大 


WHERE cast(salary AS FLOAT) < 100000.0; 

类 型 转换 函数 的 语法 是 cast(value AS TYPE)。 如 果 例 子 中 的 salary 
字段 的 值 不 是 合法 的 浮 点 数字 符 串 的 话 ， 那 么 结果 会 怎么 样 昵 ?这 种 
情况 下 ，Hive 会 返回 NULL 。 

需要 注意 的 是 ， 将 浮 扣 数 转换 成 整数 的 推荐 方式 是 使 用 表 6-2 中 列 
举 的 round0) 或 者 floor(0) 函 数 ， 而 不 是 使 用 类 型 转换 操作 和 从 cast 。 

类 型 转换 BINARY 值 


Hive v0.8.0 版 本 中 新 引入 的 BINARY 类 型 只 支持 将 BINARY 类 型 转 
换 为 STRING 类 型 。 不 过 ， 如 果 用 户 知 道 其 值 是 数值 的 话 ， 那 么 可 以 
通过 的 套 cast() 的 方式 对 其 进行 类 型 转换 ， 如 下 面 例子 所 示 ， 其 中 b 字 
段 类 型 是 BINARY: 


用 户 同样 可 以 将 STRING 类 型 转换 为 BINARY 类 型 。 


6.9 ”抽样 查询 
对 于 非常 大 的 数据 集 ， 有 时 用 户 需 要 使 用 的 是 一 个 具有 代表 性 的 
查询 结果 而 不 是 全 部 结果 。Hive 可 以 通过 对 表 进行 分 桶 抽样 来 满足 这 


个 需求 。 


在 下 面 这 个 例子 中 ， 假 设 numbers 表 只 有 number 字 段 ， 其 值 是 1 到 


10 


我 们 可 以 使 用 rand0) 函 数 进行 抽样 ， 这 个 函数 会 返回 一 个 随机 值 。 
前 两 个 查询 都 返回 了 两 个 不 相等 的 值 ， 而 第 3 个 查询 语句 无 返回 结果 : 
hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON rand()) s; 


2 
4 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON rand()) s; 


7 
10 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON rand()) s; 


如 果 我 们 是 按照 指定 的 列 而 非 rand0) 画 数 进 行 分 桶 的 话 ， 那 么 同一 
语句 多 次 执行 的 返回 值 是 相同 的 : 
hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON number ) s; 
2 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 5 OUT OF 10 ON number ) s; 
4 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 3 OUT OF 10 ON number ) s; 
2 


分 桶 语句 中 的 分 母 表示 的 是 数据 将 会 被 效 列 的 桶 的 个 数 ， 而 分 于 
表示 将 会 选择 的 桶 的 个 数 : 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 1 OUT OF 2 ON number) s; 
2 


4 
6 
8 
10 


hive> SELECT * from numbers TABLESAMPLE(BUCKET 2 OUT OF 2 ON number) s; 


6.9.1 ”数据 块 抽样 


Hive 提 供 了 另外 一 种 按照 抽样 百分比 进行 抽样 的 方式 ， 这 种 是 基 
于 行 数 的 ， 按 照 输入 路 径 下 的 数据 块 百 分 比 进行 的 抽样 : 


hive> SELECT * FROM numbersflat TABLESAMPLE(0.1 PERCENT) $s; 


区 

&) 
a. 2 
必 ”提示 


这 种 抽样 方式 不 一 定 适用 于 所 有 的 文件 格式 。 男 外 ， 这 种 抽 
样 的 最 小 抽样 单元 是 一 个 HDFS 数 据 块 。 因 此 ， 如 果 表 的 数据 大 
小 小 于 普通 的 块 大 小 128MB 的 话 ， 那 么 将 会 返回 所 有 行 。 


基于 百分比 的 抽样 方式 提供 了 一 个 变量 ， 用 于 控制 基于 数据 块 的 
调 优 的 种 子 信息 : 


<property> 
<name>hive.sample.seednumber</name> 
<value>0</value> 


<description>A number used for percentage sampling. By changing this 
number, user will change the subsets of data sampled.</description> 
</property> 


6.9.2 ”分 桶 表 的 输入 裁剪 


从 第 一 次 看 TABLESAMPLE 语 句 ， 精 明 的 用 户 可 能 会 得 出 “如 下 的 
查询 和 TABLESAMPLE 操 作 相 同 ” 的 结论 : 


hive> SELECT * FROM numbersflat WHERE number %2 = 0; 


对 于 大 多 数 类 型 的 表 确实 是 这 样 的 。 抽 样 会 扫描 表 中 所 有 的 数 
据 ， 然 后 在 每 N 行 中 抽取 一 行 数据 。 不 过 ， 如 采 TABLESAMPLE 语 句 
中 指定 的 列 和 CLUSTERED BY 语句 中 指定 的 列 相同 ， 那 么 
TABLESAMPLE 碍 询 束 只 会 扫描 涉及 到 的 表 的 哈 斯 分 区 下 的 数据 ; 


hive> CREATE TABLE numbers_bucketed (number int) CLUSTERED BY (number) INTO 3 
BUCKETS ; 


hive> SET hive.enforce.bucketing=true; 
hive> INSERT OVERWRITE TABLE numbers_bucketed SELECT number FROM numbers; 


hive> dfs -ls /user/hive/warehouse/mydb.db/numbers_bucketed; 
/user/hive/warehouse/mydb.db/numbers_bucketed/000000_0 
/user/hive/warehouse/mydb.db/numbers_bucketed/000001_0 
/user/hive/warehouse/mydb.db/numbers_bucketed/000002_ 0 


hive> dfs -cat /user/hive/warehouse/mydb.db/numbers_bucketed/000001 0 
1 


因为 这 个 表 已 经 聚集 成 3 个 数据 桶 了 ， 下 面 的 这 个 查询 可 以 高 效 地 
仅 对 其 中 一 个 数据 桶 进行 抽样 : 


hive> SELECT * FROM numbers_bucketed TABLESAMPLE (BUCKET 2 OUT OF 3 ON NUMBER) s; 
下 
7 
10 
4 


6.10 UNION ALL 


UNION ALL 可 以 将 2 个 或 多 个 表 进 行 合并 。 每 一 个 union 子 查询 都 
必需 具有 相同 的 列 ， 而 且 对 应 的 每 个 字段 的 字段 类 型 必须 是 一 致 的 。 
例如 ， 如 果 第 2 个 字段 是 FLOAT 类 型 的 ， 那 么 所 有 其 他 子 查询 的 第 2 个 
字段 必须 都 是 FLOAT 类 型 的 。 


下 面 是 个 将 日 志 数 据 进 行 合 并 的 例子 : 


SELECT log.ymd, log.level, log.message 
FROM ( 
SELECT 11.ymd, 11.level, 
li.message, 'Log1' AS source 
FROM 1og1 11 
UNION ALL 


SELECT 12.ymd, 12.1level, 
1l2.message, 'Log2' AS source 
FROM 1og1 12 
) log 
SORT BY log.ymd AScC,; 


UNION 也 可 用 于 同一 个 源 表 的 数据 合并 。 从 逻辑 上 讲 ， 可 以 使 用 
一 个 SELECT 和 WHERE 语句 来 获得 相同 的 结果 。 这 个 技术 便于 将 一 个 
长 的 复杂 的 WHERE 语句 分 割 成 2 个 或 多 个 UNION 子 查询 。 不 过 ， 除 非 
源 表 建立 了 索引 ， 否 则 ， 这 个 查询 将 会 对 同一 份 源 数据 进行 多 次 拷贝 
分 发 。 例 如 : 

FROM ( 


FROM src SELECT Src.key, src.value WHERE Src,Kkey < 100 
UNION ALL 


FROM src SELECT Src.* WHERE src.key > 110 
) unioninput 
INSERT OVERWRITE DIRECTORY '/tmp/union.out' SELECT unioninput.* 


[1] 在 据 写 本 文 时 ，Hive Wiki 中 展示 了 一 个 不 正确 的 语法 来 通过 正则 表 
达 式 指定 列 。 


第 7 章 HiveQL: 视图 


视图 可 以 允许 保存 一 个 查询 并 像 对 待 表 一 样 对 这 个 查询 进行 操 
作 。 这 是 一 个 逻辑 结构 ， 因 为 它 不 像 一 个 表 会 存储 数据 。 换 句 话 说 ， 
Hive 目 前 暂 不 文 持 物 化 视图 。 


| 当 一 个 查询 引用 一 个 视图 时 ， 这 个 视图 所 定义 的 查询 语句 将 和 用 
尸 的 查询 语句 组 合 在 一 起 ， 然后 供 Hive 制 定 查 询 计 划 。 从 逻辑 上 讲 ， 
0 
查询 。 


7.1 使 用 视图 来 降低 查询 复杂 度 


当 查 询 变 得 长 或 复杂 的 时 候 ， 通 过 使 用 视图 将 这 个 查询 语句 分 割 
成 多 个 小 的 、 更 可 控 的 片段 可 以 降低 这 种 复杂 度 。 这 点 和 在 编程 语言 
中 使 用 函数 或 者 软件 设计 中 的 分 层 设计 的 概念 是 一 致 的 。 封 装 复杂 的 
部 分 可 以 是 最 终 用 户 通 过 重用 重复 的 部 分 来 构建 复杂 的 查询 。 例 如 ， 
如 下 是 一 个 具有 蕉 套子 查询 的 查询 : 


FROM ( 
SELECT * FROM people JOIN cart 


ON (cart.people id=people.id) WHERE firstname=' john' 
) a SELECT a.lastname WHERE a.id=3; 


Hive 查 询 语 句 中 含有 多 层 风 侠 是 非常 弟 见 的 。 在 下 面 这 个 例子 
中 ， 垦 套子 查询 变 成 了 一 个 视图 : 


CREATE VIEW Shorter_ join AS 


SELECT * FROM people JOIN cart 
ON (cart.people id=people.id) WHERE firstname='john '， 


现在 就 可 以 像 操 作 表 一 样 来 操作 这 个 视图 了 。 本 次 的 查询 语句 中 
我 们 为 SELECT 语句 增加 了 一 个 WHERE 子 句 ， 这 样 就 大 大 简化 了 之 前 
的 那个 查询 语句 : 


SELECT lastname FROM Shorter_ join WHERE id=3,; 


7.2 ”使 用 视图 来 限制 基于 条 件 过 滤 的 数据 


对 于 视图 来 说 一 个 闻 见 的 使 用 场景 束 是 基于 一 个 或 多 个 列 的 值 来 
限制 输出 结 采 。 有 些 数据 库 允 许 将 视图 作为 一 个 安全 机 制 ， 也 就 是 不 
给 用 户 直 接 访 问 具 有 敏感 数据 的 原始 表 ， 而 是 提供 给 用 户 一 个 通过 
WHERE 子 句 限制 了 的 视图 ， 以 供 访问 。Hive 目 前 并 不 支持 这 个 功能 ， 
因为 用 户 必须 具有 能 够 访问 整个 的 层 原始 表 的 权限 ， 这 时 视图 才能 工 
作 。 然 而 ， 通 过 创建 视图 来 限制 数据 访问 可 以 用 来 保护 信息 不 被 随意 


查询 : 


hive> CREATE TABLE userinfo ( 


> firstname string, lastname string, ssn string, password string); 
hive> CREATE VIEW safer_user_info AS 
> SELECT firstname,lastname FROM userinfo; 


如 下 是 通过 WHERE 子 名 限制 数据 访问 的 视图 的 另 一 个 例子 。 在 
这 种 情况 下 ， 我 们 布 望 提供 一 个 员工 表 视 图 ， 只 又 露 来 目 特 定 部 门 的 


员 工 信 息 : 


hive> CREATE TABLE employee (firstname string, lastname string, 
> ssn string, password string, department string); 


hive> CREATE VIEW techops_employee AS 
> SELECT firstname,Jlastname,ssn FROM userinfo WHERE department='techops'; 


7.3 动态 分 区 中 的 视图 和 map 类 型 


记得 在 第 3 章 我 们 吏 介 绍 过 Hive 文 持 array、map 和 struct 数 据 类 型 
这 些 数据 类 型 在 传统 数据 库 中 并 不 各 见 ， 因 为 它们 破坏 了 第 一 范式 。 
Hive 可 将 一 行文 本 作为 一 个 map 而 非 一 组 固定 的 列 的 能 力 ， 加 上 视图 
功能 ， 束 允许 用 户 可 以 基于 同一 个 物理 表 构 建 多 个 逻辑 表 。 


思考 下 面 这 个 示例 文件 。 其 将 整 行 作 为 一 个 map 处 理 ， 而 不 是 一 
列国 定 的 列 。 这 里 没有 使 用 Hive 的 默认 分 隅 符 ， 这 个 文件 使 用 
和 A(Control + A) 作为 集合 内 元 素 间 的 分 隔 符 (例如 ， 本 例 中 map 的 多 
个 键 - 值 对 之 间 的 分 隔 符 ) ， 然 后 使 用 AB (Control + B) 作为 map 中 的 
键 和 值 之 间 的 分 隔 符 。 因 为 这 条 记录 较 长 ， 所 以 为 了 更 清晰 地 表达 ， 
我 们 人 为 地 增加 了 空 行 : 


time^B1298598398404^Atype^Brequest^Astate^Bny^Acity^Bwhite 
plains^Apart\^Bmuffler 


time^B1298598398432^Atype^Bresponse^Astate^Bny^Acity^Btarrytown 人 ^ 
Apart\^Bmuffler 


time^B1298598399404^Atype^Brequest^Astate^Btx^Acity^Baustin^ 
Apart^Bheadlight 


下 面 我 们 来 创建 表 : 


CREATE EXTERNAL TABLE dynamictable(cols map<string,string>) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\004 


COLLECTION ITEMS TERMINATED BY "和 6001 
MAP KEYS TERMINATED BY "002 
STORED AS TEXTFILE; 


上 面 的 例子 中 ， 因 为 每 行 只 有 一 个 字段 ， 因 此 FIELDS 
TERMINATED BY 语句 所 指定 的 分 隔 符 实际 上 没有 任何 影响 。 


现在 我 们 可 以 创建 这 样 一 个 视图 ， 其 仅 取 出 type 值 等 于 request 的 
city、 state 和 part 3 个 字段 ， 并 将 视图 命名 为 orders。 视 图 orders 具 有 3 个 
字段 : state 、city 和 part 。 


CREATE VIEW orders(state, city, part) AS 
SELECT cols["state"], cols["city"], cols["part"] 


FROM dynamictable 
WHERE cols["type"] = "request"; 


我 们 创建 的 第 2 个 视图 名 为 shipments。 这 个 视图 返回 time 和 part 2 
个 字段 作为 列 ， 限制 条 件 是 type 的 值 为 response: 


CREATE VIEW shipments(time, part) AS 
SELECT cols["time"], cols["parts"] 


FROM dynamictable 
WHERE cols["type"] = "response"; 


天 于 这 个 特性 的 为 一 个 例子 ， 请 查看 下 如 下 链接 : 
http://dev.bizo.com/2011/02/columns-in-hive.html#!/2011/02/columns-in- 
hive.html ° 


7.4 ”视图 零 零 碎 碎 相关 的 事情 


我 们 说 过 ，Hive 会 完 解析 视图 ， 然 后 使 用 解析 结 采 再 来 解析 整个 
查询 语句 。 然 而 ， 作 为 Hive 查 询 优化 絮 的 一 部 分 ， 查 询 语句 和 视图 语 


句 可 能 会 合并 成 一 个 单一 的 实际 得 询 语句 。 


然而 ， 这 个 概念 视图 仍然 运用 于 视图 和 使 用 这 个 视图 的 查询 语句 
都 包含 了 一 个 ORDER BY 于 句 或 一 个 LIMIT 子 句 的 情况 。 这 时 会 在 使 
用 这 个 视图 的 查询 语句 之 前 对 该 视图 进行 解析 。 


例如 ， 如 果 视 图 语句 含有 一 个 LIMIT 100 子 句 ， 而 同时 使 用 到 这 个 
视图 的 查询 含有 一 个 LIMIT 200 子 句 ， 那 么 用 户 最 终 最 多 只 能 获取 100 
条 结果 记录 。 


因为 定义 一 个 视图 实际 上 并 不 会 “具体 化 ”操作 任何 实际 数据 ， 所 
以 视图 实际 上 是 对 其 所 使 用 到 的 表 和 列 的 一 个 查询 语句 固化 过 程 。 
此 ， 如 末 视 图 所 涉及 的 表 或 者 列 不 再 存在 时 ， 会 导致 视图 查询 失败 。 


创建 视图 时 用 户 还 可 以 使 用 其 他 一 些 子 句 。 如 下 例子 修改 了 我 们 
前 面 那 个 例子 : 


CREATE VIEW IF NOT EXISTS shipments(time, part) 
COMMENT 'Time and parts for shipments,.' 


TBLPROPERTIES ('creator' = 'me') 
AS SEEEGT a» 


对 于 表 来 说 ，IF NOT EXISTS 和 COMMENT... 子 句 是 可 选 的 ， 而 
且 和 表 创 建 语句 具有 相同 的 含义 。 


一 个 视图 的 名 称 要 和 这 个 视图 所 在 的 数据 库 下 的 其 他 所 有 表 和 视 
图 的 名 称 不 同 。 


用 户 还 可 以 为 所 有 的 新 列 或 部 分 新 列 增加 一 个 COMMNET 子 句 ， 
进行 写 注释 。 这 些 注释 并 非 “ 继 承 ” 原 始 表 中 的 定义 。 


同样 地 ， 如 果 AS SELECT 子 句 中 包含 没有 命名 别名 的 表达 式 的 
话 ， 例 如 size(cols)( 计 算 cols 中 元 素 的 个 数 )， 那 么 Hive 将 会 使 用 _CN 作 
为 新 的 列 名 ， 其 中 N 表 示 从 0 开始 的 一 个 整数 。 如 果 AS SELECT 语句 不 
合法 的 话 ， 那 么 创建 视图 过 程 将 失败 。 


在 AS SELECT 子 句 之 前 ， 用 户 可 以 通过 定义 TBLPROPERTIES 来 
定义 表 属 性 信息 ， 这 点 和 表 相 同 。 上 例 中 ， 我 们 定义 的 属性 
为 “creator”， 表 示 这 个 视图 的 创建 者 名 称 。 


第 4.3 节 “创建 表 ” 中 讨论 过 的 CREATE TABLE ... LIKE ... 结 构 同 样 
适用 于 复制 视图 ， 只 需要 在 LIKE 表 达 式 里 面 写 视图 名 就 可 以 了 : 


CREATE TABLE shipments2 
LIKE shipments; 


用 户 也 可 以 像 以 前 一 样 选择 性 使 用 EXTERNAL 关 键 字 和 
LOCATION... 子 句 。 


r | 
| 


> 营 告 


对 于 Hive v0.8.0 版 本 和 这 个 版 本 前 的 其 他 版 本 来 说 ， 这 个 语 
句 的 行为 是 不 同 的 。 对 于 v0.8.0 版 本 ， 这 个 命令 会 创建 一 个 新 的 
表 ， 而 不 是 一 个 新 的 视图 ， 同 时 使 用 默认 的 SerDe 方 式 和 文件 格 
式 。 而 对 于 之 前 的 早期 版 本 来 说 ， 会 创建 一 个 新 的 视图 。 


删除 视图 的 方式 和 删除 表 的 方式 类 似 : 
和 往常 一 样 ， 上 面 例子 中 的 IF EXISTS 语 句 是 可 选 的 。 


通过 SHOW TABLES 语 句 (没有 SHOW VIEWS 这 样 的 语句 ) 同样 
可 以 查看 到 视图 ， 但 是 不 能 使 用 DROP TABLE 语 句 来 删除 视图 。 


和 表 一 样 ，DESCRIBE 和 DESCRIBE EXTENDED 语句 可 以 显示 视 
图 的 元 数据 信息 。 如 果 使 用 后 面 那个 命令 ， 输 出 信息 中 的 “Detailed 
Table Information” 部 分 会 有 一 个 tableType 字 段 ， 字 段 值 显示 的 
是 “VIRTUAL VIEW”。 


视图 不 能 够 作为 INSERT 语 名 或 LOAD 命 令 的 目标 表 。 


最 后 要 说 明 的 是 ， 视 图 是 只 读 的 。 对 于 视图 只 人 允许 改变 元 数据 中 
TBLPROPERTIES 属 性 信息 : 


ALTER VIEW shipments SET TBLPROPERTIES ('created at' = 'some_ timestamp'); 


第 8 章 HiveQL: 索引 


Hive 只 有 有 限 的 索引 功能 。Hive 中 没有 普通 关系 型 数据 库 中 键 的 
概念 ， 但 是 还 是 可 以 对 一 些 字 段 建立 索引 来 加 速 某 些 操作 的 。 一 张 表 
的 索引 数据 存储 在 另外 一 张 表 中 。 


同时 ， 因 为 这 是 一 个 相对 比较 新 的 功能 ， 所 以 目前 还 没有 提供 很 
多 的 选择 。 然 而 ， 索 引 人 处 理 模 块 被 设计 成 为 可 以 定制 的 Java 编 码 的 插 
件 ， 因 此 ， 用 户 可 以 根据 需要 对 其 进行 实现 ， 以 满足 目 身 的 需求 。 


当 逻 辑 分 区 实际 上 太 多 太 细 而 几乎 无 法 使 用 时 ， 建 立 索 引 也 就 成 
为 分 区 的 另 一 个 选择 。 建 立 索 引 可 以 帮助 裁剪 抒 一 张 表 的 一 些 数据 
块 ， 这 样 能 够 减少 MapReduce 的 输入 数据 量 。 并 非 所 有 的 查询 都 可 以 
通过 建立 索引 获得 好 处 。 通 过 EXPLAIN 命 令 可 以 查看 某 个 查询 语句 是 
否 用 到 了 索引 。 


Hive 中 的 索引 和 那些 关系 型 数据 库 中 的 一 样 ， 需 要 进行 仔细 评 们 
才能 使 用 。 维 护 索 引 也 需要 额外 的 存储 空间 ， 同 时 创建 索引 也 需要 消 
耗 计算 资源 。 用 户 需要 在 建立 索引 为 查询 带 来 的 好 处 和 因此 而 需要 付 
出 的 代价 之 间 做 出 权衡 。 


8.1 创建 索引 


现在 我 们 来 为 我 们 在 第 56 页 “分 区 表 、 管 理 表 * 章 市 讲述 过 的 管理 
分 区 表 中 的 employees 表 建立 一 个 索引 。 下 面 这 段 是 我 们 之 前 的 表 定义 
语句 ， 作 为 参照 : 


CREATE TABLE employees ( 
name STRING, 
salary FLOAT, 
subordinates ARRAY<STRING>, 
deductions MAP<STRING, FLOAT>, 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> 


) 
PARTITIONED BY (country STRING, state STRING); 


下 面 我 们 仅 对 分 区 字段 country 建 立 索 引 : 


CREATE INDEX employees_index 

ON TABLE employees (country) 

AS 'org.apache.hadoop.hive.ql.index.compact.CompactIindexHandler' 
WITH DEFERRED REBUILD 


IDXPROPERTIES ('creator = 'me', 'created at' = 'some_ time') 
IN TABLE employees_index_table 

PARTITIONED BY (country, name) 

COMMENT 'Employees indexed by country and name.'; 


在 这 种 情况 下 ， 我 们 没有 像 原 表 那 样 对 索引 表 进 行 同一 粒度 的 分 
区 划分 。 其 实 我 们 是 可 以 那么 做 的 。 如 果 我 们 完全 省 略 掉 
PARTITIONED BY 语 名 的话， 那么 索引 将 会 包含 原始 表 的 所 有 分 区 。 


AS .… 语 句 指定 了 筑 引 众 青 适 ， 也 了 驶 是 一 个 实现 了 索引 接口 的 Java 
类 。Hive 本 号 包含 了 一 些 典型 的 索引 实现 。 这 里 所 展示 的 
CompactIndexHandler 就 是 其 中 的 一 个 实现 。 可 以 通过 第 三 方 的 实现 来 
最 优化 地 处 理 特定 的 场景 ， 文 持 特 定 的 文件 格式 ， 等 等 。 在 第 121 页 
的 “实现 一 个 定制 化 的 索引 处 理 右 ” 章 订 ， 我 们 将 对 如 何 实 现 一 个 用 户 
定制 的 索引 处 理 右 进行 评 细 的 说 明 。 


下 一 节 我 们 将 讨论 WITH DEFERRED REBUILD 这 个 子 句 的 含 
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并 非 一 定 要 求索 引 处 理 器 在 一 张 新 表 中 保留 索引 数据 ， 但 是 如 果 
需要 的 话 ， 会 使 用 到 IN TABLE ... 子 句 。 这 个 句 式 提供 了 和 创建 其 他 
类 型 表 一 样 的 很 多 功能 。 特 别 地 ， 例 子 中 没有 使 用 到 ROW 
FORMAT、STORED AS、STORED BY、LOCATION 等 我 们 在 第 4 章 所 
a °。 这 些 其 实 都 是 可 以 在 最 后 的 COMMENT 语 句 前 增加 


目前 ， 除 了 S3 中 的 数据 ， 对 外 部 表 和 视图 都 是 可 以 建立 索引 的 。 


Bitmap 索 引 


Hive v0.8.0 版 本 中 新 增 了 一 个 内 置 bitmap 索 引 处 理 右 。bitmap 索 引 
普 记 应 用 于 排 重 后 值 较 少 的 列 。 下 面 是 对 前 面 的 例子 使 用 bitmap 索 引 
处 理 硕 重 写 后 的 语句 : 


CREATE INDEX employees_index 
ON TABLE employees (country) 
AS 'BITMAP' 

WITH DEFERRED REBUILD 


IDXPROPERTIES ('creator' = 'me', 'created at' = 'Some_time') 
IN TABLE employees_index_table 

PARTITIONED BY (country, name) 

COMMENT "Employees indexed by country and name.'; 


8.2 ”重建 索引 


如 果 用 户 指 定 了 DEFERRED REBUILD， 那 么 新 索引 将 呈现 空白 
状态 。 在 任何 时 候 ， 都 可 以 进行 第 一 次 索引 创建 或 者 使 用 ALTER 
INDEX 对 索引 进行 重建 : 


ALTER INDEX employees_ index 
ON TABLE employees 
PARTITION (country = 'US') 
REBUILD ; 


如 果 省 略 掉 PARTITION， 那 么 将 会 对 所 有 分 区 进行 重建 索引 。 


还 没有 一 个 内 置 的 机 制 能 够 在 底层 的 表 或 者 某 个 特定 的 分 区 发 生 
改变 时 ， 上 自动 触发 重建 索引 |。 但是， 如果 用 户 具有 一 个 工作 流 来 更 新 
表 分 区 中 的 数据 的 话 ， 那 么 用 户 可 能 已 经 在 其 中 某 处 使 用 到 了 第 69 
页 “众多 的 Alter Table 语 句 ”* 章 节 中 所 说 明 的 ALTER TABLE ... TOUCH 
PARTITION(...) 功 能 ， 同 样 地 ， 在 这 个 工作 流 中 也 可 以 对 对 应 的 索引 
执行 重建 索引 语句 ALTER INDEX ... REBUILD 。 


如 采 重 建 索引 失败 ， 那 么 在 重建 开始 之 前 ， 索 引 将 俘 留 在 之 前 的 
版 本 状态 。 从 这 种 意义 上 看 ， 重 建 驼 引 操 作 是 原 玫 任 的 。 


8.3 ”显示 索引 
下 面 这 个 命令 将 显示 对 于 这 个 索引 表 对 所 有 列 所 建立 的 索引 : 


SHOW FORMATTED INDEX ON employees; 


关键 字 FORMATTED 是 可 选 的 。 增 加 这 个 关键 字 可 以 使 输出 中 包 
含有 列 名 称 。 用 户 还 可 以 克 换 INDEX 为 INDEXES， 这 样 输出 中 就 可 以 
列举 出 多 个 索引 信息 了 。 


8.4 删除 索引 


如 末 有 索引 表 的 话 ， 删 除 一 个 索引 将 会 删除 这 个 索引 表 : 


Hive 不 允许 用 户 直接 使 用 DROP TABLE 语 句 之 前 删除 索引 表 。 而 
通常 情况 下 ，IF EXISTS 都 是 可 选 的， 其 用 于 当 索 引 不 存在 时 避免 抛 出 


错误 信息 。 


如 打 被 索引 的 表 被 删除 了 ， 那 么 其 对 应 的 索引 和 索引 表 也 会 被 删 
除 。 同 样 地 ， 如 果 原 始 表 的 茶 个 分 区 被 删除 了 ， 那 么 这 个 分 区 对 应 的 
分 区 索引 也 同时 会 被 删除 掉 。 


8.5 ”实现 一 个 定制 化 的 索引 处 理 屁 


在 Hive Wiki 页 面具 有 实现 一 个 定制 化 的 索引 处 理 如 的 完整 的 例 
子 ， 链 接 是 
https://cwiki.apache.org/confluence/display/Hive/IndexDev#CREATE_IND 
EX。 其 中 还 包含 了 索引 的 初步 设计 文档 。 当 然 ， 用 户 也 是 可 以 使 用 
org.apache.hadoop.hive.ql.index. 


compact.CompactIndexHandler 中 的 源 代码 作为 例子 来 学 习 的 。 


创建 好 索引 后 ， 实 现 索 引 处 理 絮 的 Java 代 码 中 也 要 做 一 些 初始 验 
证 和 为 索引 表 (如 果 使 用 到 索引 表 的 话 ) 定义 模式 的 过 程 。 同 时 还 要 
实现 重建 索引 处 理 逻 辑 ， 其 会 读 取 需 要 创建 索引 的 表 ， 然 后 写 索 引 存 
储 (例如 索引 表 ) 。 但 索引 被 删除 后 ， 处 理 器 还 需要 清理 掉 所 有 为 索 
引 所 使 用 到 的 非 表 存储 。 如 采 需 要 ， 还 要 依赖 Hive 去 删除 索引 表 。 处 
理 絮 必须 能 够 参与 到 优化 查询 中 。 


第 9 章 ”模式 设计 


Hive 看 上 去 以 及 实际 行为 都 像 一 个 关系 型 数据 库 。 用 户 对 如 表 和 
列 这 类 术语 比较 熟悉 ， 而 且 Hive 提 供 的 查询 语言 和 用 户 之 前 使 用 过 的 
SQL 方言 非常 地 相似 。 不 过 ，Hive 实 现 和 使 用 的 方式 和 传统 的 关系 型 
数据 库 是 非常 不 同 的 。 通 常 ， 用 户 视 图 移植 天 系 型 数据 库 中 的 模式 ， 
而 事实 上 Hive 是 反 模 式 的 。 本 章 将 重点 介绍 Hive 中 哪些 模式 是 用 户 应 
该 使 用 的 ， 而 又 有 哪些 反 模 式 是 应 该 避免 使 用 的 。 


9.1 按 天 划分 的 表 


按 天 划分 表 就 是 一 种 模式 ， 其 通常 会 在 表 名 中 加 入 一 个 时 间 戳 ， 
例如 表 名 为 upply_2011.01.01、supply_2011.01.02， 等 等 。 这 种 每 天 
一 张 表 的 方式 在 数据 库 领域 是 反 模式 的 一 种 方式 ， 但 是 因为 实际 情况 
下 数据 集 增长 得 很 快 ， 这 种 方式 应 用 还 是 比较 广泛 的 。 


hive> CREATE TABLE supply_2011 01 02 (id int, part string, quantity int); 


hive> CREATE TABLE supply_2011 01 03 (id int, part string, quantity int); 


hive> CREATE TABLE supply_2011 01 04 (id int, part string, quantity int); 
hive> .... load data ... 


hive> SELECT part,dquantity supply_2011 01 02 
> UNION ALL 
> SELECT part,dquantity from supply_2011 01 03 
> WHERE quantity < 4; 


对 于 Hive， 这 种 情况 下 应 该 使 用 分 区 表 。Hive 通 过 WHERE 子 句 中 
的 表达 式 来 选择 查询 所 需要 的 指定 的 分 区 。 这 样 的 查询 执行 效率 高 ， 
而 且 看 起 来 清晰 明了 : 


hive> CREATE TABLE supply (id int, part string, quantity int) 
> PARTITIONED BY (int day); 


hive> ALTER TABLE supply add PARTITION (day=20110102); 
hive> ALTER TABLE supply add PARTITION (day=20110103); 


hive> ALTER TABLE supply add PARTITION (day=20110102); 


hive> .... load data ... 


hive> SELECT part,dquantity FROM supply 
> WHERE day>=20110102 AND day<20110103 AND quantity < 4; 


9.2 ”关于 分 区 


Hive 中 分 区 的 功能 是 非常 有 用 的 。 这 是 因为 Hive 通 常 要 对 输入 进 
行 全 副 扫 描 ， 来 满足 查询 条 件 (这 里 我 们 先 忽 略 挥 Hive 的 索引 功 
能 ) 。 通 过 创建 很 多 的 分 区 确实 可 以 优化 一 些 查 询 ， 但 是 同时 可 能 会 
对 其 他 一 些 重 要 的 查询 不 利 : 


hive> CREATE TABLE weblogs (url string, time long ) 
> PARTITIONED BY (day int, state string, city string); 


hive> SELECT * FROM weblogs WHERE day=20110102; 


HDFS 用 于 设计 存储 数 百 万 的 大 文件 ， 而 非 数 十 亿 的 小 文件 。 使 
用 过 多 分 区 可 能 导致 的 一 个 问题 束 是 会 创建 大 量 的 非 必 须 的 Hadoop 文 
件 和 文件 来。 一 个 分 区 就 对 应 着 一 个 包含 有 多 个 文件 的 文件 夹 。 如 果 
指定 的 表 存 在 数 百 个 分 区 ， 那 么 可 能 每 天 都 会 创建 好 几 万 个 文件 。 如 
果 保 持 这 样 的 表 很 多 年 ， 那 么 最 终 束 会 超出 NameNode 对 系统 云 数 据 
信息 的 处 理 能 力 。 因 为 NameNode 必 须要 将 所 有 的 系统 文件 的 元 数据 
信息 保存 在 内 存 中 。 虽 然 每 个 文件 只 需要 少量 字 节 大 小 的 元 数据 (大 
约 是 150 字 市 /文件 ) ， 但 是 这 样 也 会 限制 一 个 HDFS 实 例 所 能 管理 的 文 
i 。 而 其 他 的 文件 系统 ， 比 如 MapR 和 Amazon S3 就 没有 这 
| | 。 


MapReduce 会 将 一 个 任务 (job) 转换 成 多 个 任务 (task) 。 默 认 
情况 下 ， 每 个 task 都 是 一 个 新 的 JVM 实 例 ， 都 需要 开启 和 销毁 的 开 
销 。 对 于 小 文件 ， 每 个 文件 都 会 对 应 一 个 task。 在 一 些 情况 下 ，JVM 
开启 和 销毁 的 时 间 中 销毁 可 能 会 比 实 际 处 理 数据 的 时 间 消 耗 要 长 ! 


因此 ， 一 个 理想 的 分 区 方案 不 应 该 导致 产生 太 多 的 分 区 和 文件 夹 
目录 ， 并 且 每 个 目录 下 的 文件 应 该 足够 得 大 ， 应 该 是 文件 系统 中 块 大 
小 的 若干 倍 。 

按时 间 范 围 进行 分 区 的 一 个 好 的 策略 吏 是 按照 不 同 的 时 间 粒 度 来 
定 合适 大 小 的 数据 积 素 量 ， 而 且 安 闭 这 个 时 间 粒 度 。 随 着 时 间 的 推 
， 分 区 数量 的 增长 是 “均匀 的 ”， 而 且 每 个 分 区 下 包含 的 文件 大 小 至 
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少 是 文件 系统 中 块 的 大 小 或 块 大 小 的 数 倍 。 这 个 平衡 可 以 保持 使 分 区 
足够 大 ， 从 而 优化 一 般 情 况 下 查询 的 数据 吞吐 量 。 同 时 有 必要 考虑 这 
种 粒度 级 别 在 未 来 是 否 是 适用 的 ， 特 别 征 查询 中 WHERE 子 名 选择 较 
小 粒度 的 范围 的 情况 : 


hive> CREATE TABLE weblogs (url string, time long, state string, city string ) 
> PARTITIONED BY (day int); 


) 
hive> SELECT * FROM weblogs WHERE day=20110102; 


另 一 个 解决 方案 是 使 用 两 个 级 别 的 分 区 并 且 使 用 不 同 的 维度 。 例 
如 ， 第 一 个 分 区 可 能 是 按照 天 (day) 进 行 划分 的 ， 而 二 级 分 区 可 能 通过 
如 州 名 (state) 这 样 的 地 理 区 域 进 行 划 分 : 


hive> CREATE TABLE weblogs (url string, time long, city string ) 


> PARTITIONED BY (day int, state string); 
hive> SELECT * FROM weblogs WHERE day=20110102; 


然而 ， 由 于 一 些 州 可 能 会 比 其 他 州 具 有 更 多 的 数据 ， 用 户 可 能 会 
发 现 map task 处 理 数据 时 会 出 现 不 均 ， 这 是 因为 处 理 数 据 量 多 的 州 需 
要 比 处 理 数据 量 小 的 州 要 消耗 更 多 的 时 间 。 


如 采用 户 不 能 够 找到 好 的 、 大 小 相对 合适 的 分 区 方式 的 话 ， 那 么 
可 以 考虑 使 用 第 9.6 字 “分 桶 表 数 据 存储 ”中 介绍 的 分 桶 存储 。 


9.3 ”唯一 键 和 标准 化 


天 系 型 数据 库 通 常 使 用 唯一 键 、 索 引 和 标准 化 来 存储 数据 集 ， 通 
常 是 全 部 或 者 大 部 分 存储 到 内 存 的 。 然 而 ，Hive 没 有 主键 或 基于 序列 
密 钥 生成 的 目 增 键 的 概念 。 如 果 可 以 的 话 ， 应 避免 对 非 标准 化 数据 进 
行 连接 (JOIN) 操作 。 复 杂 的 数据 类 型 ， 如 array、map 和 struct， 有 助 
于 实现 在 单行 中 存储 一 对 多 数据 。 这 并 不 是 说 不 应 该 进行 标准 化 ， 但 
是 星 形 架构 类 型 设计 并 非 最 优 的 。 


避免 标准 化 的 主要 的 原因 是 为 了 最 小 化 磁 表 寻 道 ， 比 如 那些 通常 
需要 外 键 关 系 的 情况 。 非 标准 化 数据 允许 被 扫描 或 写 入 到 大 的 、 连 续 
的 磁 副 存储 区 域 ， 从 而 优化 磁 副 驱动 妖 的 1/ O 性 能 。 然 而 ， 非 标准 化 
数据 可 能 导致 数据 重复 ， 而 且 有 更 大 的 导致 数据 不 一 致 的 风险 。 


例如 ， 思 考 下 我 们 的 运行 示例 
地 表述 ， 这 里 再 次 做 了 一 些 修改 : 


CREATE TABLE employees ( 
name 

salary FLOAT, 
subordinates ARRAY<STRING>, 


员工 (employees) 表 。 为 了 清晰 


deductions MAP<STRING, FLOAT> 
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>); 


这 个 例子 中 的 数据 模型 从 很 多 方面 打破 了 传统 的 设计 原则 。 


首先， 我 们 非 正式 地 使 用 name 作 为 主键 ， 而 我 们 都 知道 名 字 往 往 
不 是 唯一 的 ! 现在 暂且 忽略 这 个 问题 。 一 个 关系 模型 中 如 有 果 使 用 name 
作为 键 ， 那 么 从 一 个 员工 记录 到 经 理 记录 应 该 有 唯一 的 一 个 外 键 关 
系 。 这 里 我 们 使 用 了 另 一 种 方式 来 表达 这 个 关系 ， 即 在 subordinates 数 
组 字段 中 保存 了 这 个 员工 所 有 的 下 属 的 名 字 。 


其 次 ， 对 于 每 名 员工 来 说 ， 其 各 项 税收 扣除 额 都 是 不 同 的， 但 走 
map 的 键 都 是 一 样 的 ， 即 使 用 户 使 用 “标记 ”( 例 如， 人 整数) 来 作为 键 实 际 
对 应 的 值 。 一 个 彰 规 的 关系 模型 通常 使 用 一 个 单独 的 、 具 有 2 个 列 的 表 
来 记录 税收 扣除 项 的 扣除 名 称 (或 标志 ) 和 具体 的 值 ， 而 员工 表 和 这 个 
税收 扣除 项 之 间 是 一 对 多 的 关系 。 


最 后 ， 有 些 雇 员 还 是 有 可 能 住 在 同一 个 地 址 的 ， 但 是 我 们 为 每 个 
组 员 都 记录 了 其 对 应 的 住址 ， 而 不 是 使 用 一 个 雇员 住址 表 ， 然 后 和 雇 
员 表 建立 一 对 一 的 关系 。 


下 面 轮 到 我 们 管理 引用 完整 性 〈 或 处 理 结果 ) ， 然 后 解决 特定 的 
发 生 了 改变 的 数据 中 的 重复 数据 。Hive 本 身 没有 提供 方便 的 方式 来 对 
单行 数据 执行 UPDATE 操 作 。 

不 过 ， 当 用 户 的 数据 量 达 到 数 十 TB 到 PB 级 别 时 ， 相 对 于 这 些 局 限 
性 而 言 ， 优 化 执行 速度 显得 更 加 重要 。 


9.4 同一 份 数据 多 种 处 理 


Hive 本 身 提 供 了 一 个 独特 的 语法 ， 它 可 以 从 一 个 数据 源 产 生 多 个 
数据 聚合 ， 而 无 需 每 次 率 合 部 要 重新 扫描 一 次 。 对 于 大 的 数据 输入 集 


El 


来 说 ， 这 个 优化 可 以 区 约 非常 可 观 的 时 间 。 我 们 会 在 第 5 章 详 细 讨论 这 


个 问题 。 


例如 ， 下 面 这 2 个 查询 都 会 从 源 表 history 表 读 取 数据 ， 然 后 导入 到 
2 个 不 同 的 表 中 : 


hive> INSERT OVERWRITE TABLE Sales 
> SELECT * FROM history WHERE action='purchased ' ， 


hive> INSERT OVERWRITE TABLE credits 
> SELECT * FROM history WHERE action='returned'; 


上 面 的 查询 ， 语 法 息 正 确 的 ， 不 过 执行 效率 低下 。 而 如 下 这 个 得 
询 可 以 达到 同样 的 目的 ， 却 只 需要 扫描 histroy 表 一 次 束 可 以 : 


hive> FROM history 
> INSERT OVERWRITE sales SELECT * WHERE action='purchased ' 


> INSERT OVERWRITE credits SELECT * WHERE action='returned ' ， 


9.5 ”对 于 每 个 表 的 分 区 


很 多 的 ETL 处 理 过 程 会 涉及 到 多 个 处 理 步 又， 而 每 个 步骤 可 能 会 


产生 一 个 或 多 个 临时 表 ， 这 些 表 仅 供 一 个 job 使用 。 。 起 先 可 能 会 觉得 

将 这 文 些 临时 表 进 行 分 区 不 是 那么 有 必要 的 。 不 过 ， 想 象 一 下 这 样 的 场 

景 由 于 查询 或 者 原始 数据 处 理 的 某 个 步 又 出 现 问题 而 导致 需要 对 好 

几 天 的 输入 数据 重 跑 ETL 过 程 。 这 时 用 户 可 能 就 需要 执行 那些 一 天 执 

Re 来 保证 在 所 有 的 任务 都 完成 之 前 不 会 有 job 将 临时 
履 击 重 与 。 


例如 ， 下 面 这 个 例子 中 设计 了 一 个 名 为 distinct_ip_in_logs 的 中 间 
表 ， 其 会 在 后 续 人 处 理 步 又 中 使 用 到 |: 


$ hive -hiveconf dt=2011-01-01 

hive> INSERT OVERWRITE table distinct_ip_in_logs 
> SELECT distinct(ip) as ip from weblogs 
> WHERE hit_ date='${hiveconf:dt}'; 


hive> CREATE TABLE state city for_day (state string,city string); 


hive> INSERT OVERWRITE state city_ for_day 
> SELECT distinct(state,city) FROM distinct_ip_in_logs 
> JOIN geodata ON (distinct_ ip_in logs.ip=geodata.ip); 


这 种 方式 是 有 效 的 ， 不 过 当 计 算 某 一 天 的 数据 时 会 导致 前 一 天 的 
数据 被 INSERT OVERWRITE 语 句 履 盖 掉 。 如 果 同 时 运行 两 个 这 样 的 实 
i 0 4 

jj 三 发 O 


一 个 更 具 鲁 棒 性 的 处 理 方法 是 在 整个 过 程 中 使 用 分 区 。 这 样 束 不 
会 存在 同步 问题 。 同 时 ， 这 样 还 能 市 来 一 个 好 处 ， 那 束 是 可 以 允许 用 
尸 对 中 间 数 据 按 日 期 进行 比较 : 


$ hive -hiveconf dt=2011-01-01 

hive> INSERT OVERWRITE table distinct_ip_in_logs 
> PARTITION (hit_date=${dt}) 
> SELECT distinct(ip) as ip from weblogs 
> WHERE hit_ date='${hiveconf:dt}'; 


hive> CREATE TABLE state city_ for_day (state string,city string) 
> PARTITIONED BY (hit_date string); 


hive> INSERT OVERWRITE table state city for_day PARTITION(${hiveconf:df}) 
> SELECT distinct(state,city) FROM distinct_ ip_in_ logs 
> JOIN geodata ON (distinct_ip_in_logs.ip=geodata.ip) 
> WHERE (hit_ date='${hiveconf:dt}'); 


这 种 方法 的 一 个 缺点 是 ， 用 户 将 需要 管理 中 间 表 并 删除 旧 分 区 ， 
不 过 这 些 任 务 也 很 容易 实现 目 动 化 处 理 。 


9.6 “分 桶 表 数 据 存储 


分 区 提供 一 个 隔离 数据 和 优化 查询 的 便利 的 方式 。 不 过 ， 并 非 所 
有 的 数据 集 都 可 形成 合理 的 分 区 ， 特 别 是 之 前 所 提 到 过 的 要 确定 合适 
的 划分 大 小 这 个 疑虑 。 


分 桶 是 将 数据 集 分 解 成 更 容易 管理 的 大 干部 分 的 男 一 个 技术 。 


例如 ， 假 设 有 个 表 的 一 级 分 区 是 dt， 代 表 日 期 ， 二 级 分 区 是 
user id， 那么 这 种 划分 方式 可 能 会 导致 太 多 的 小 分 区 。 回 想 下 ， 如 采 
用 户 是 使 用 动态 分 区 来 创建 这 些 分 区 的 话 ， 那 么 默认 情况 下 ，Hive 会 
限制 动态 分 区 可 以 创建 的 最 大 分 区 数 ， 用 来 避免 由 于 创建 太 多 的 分 区 
导致 超过 了 文件 系统 的 处 理 能 力 以 及 其 他 一 些 问题 。 因 此 ， 如 下 命令 
可 能 会 执行 失败 : 


hive> CREATE TABLE weblog (url STRING, source_ip STRING ) 
> PARTITIONED BY (dt STRING, user_id INT); 


hive> FROM raw_ weblog 
> INSERT OVERWRITE TABLE page_ view PARTITION(dt='2012-06-08', user_id) 
> SELECT server_name, url, source_ip, dt, user_id; 


不 过 ， 如 果 我 们 对 表 weblog 进 行 分 桶 ， 并 使 用 user_id 字 上 段 作为 分 
桶 字段 ， 则 字段 值 会 根据 用 户 指 定 的 值 进行 哈 希 分 发 到 桶 中 。 同 一 个 
user_id 下 的 记录 通常 会 存储 到 同一 个 桶 内 。 假 设 用 户 数 要 比 桶 数 多 得 
多 ， 那 么 每 个 桶 内 就 将 会 包含 多 个 用 户 的 记录 : 


hive> CREATE TABLE weblog (user_id INT, url STRING, source_ip STRING ) 
> PARTITIONED BY (dt STRING) 
> CLUSTERED BY (user_id) INTO 96 BUCKETS,; 


不 过 ， 将 数据 正确 地 插入 到 表 的 过 程 完 全 取决 于 用 户 目 己 ! 
CREATE TABLE 语 句 中 所 规定 的 信息 仅仅 定义 了 元 数据 ， 而 不 影响 实 
际 填充 表 的 命令 。 


下 面 介绍 如 何在 使 用 INSERT ... TABLE 语 句 时 ， 正 确 地 填充 表 。 
首先 ， 我 们 需要 设置 一 个 属性 来 强制 Hive 为 目标 表 的 分 桶 初始 化 过 程 
“0 。 然后 我 们 再 执行 一 个 查询 来 填充 分 区 。 
列 如 : 


hive> SET hive.enforce.bucketing = true,; 


hive> FROM raw_logs 


> INSERT OVERWRITE TABLE weblog 
> PARTITION (dt='2009-02-25') 
> SELECT user_id, url, source_ip WHERE dt='2009-02-25'，; 


如 果 我 们 没有 使 用 hive.enforce.bucketing 属 性 ， 那 么 我 们 就 需要 自 
己 设 置 和 分 桶 个 数 相 匹配 的 reducer 个 数 ， 例 如 ， 使 用 set 
mapred.reduce.tasks=96， 然 后 在 INSERT 语 句 中 ， 需 要 在 SELECT 语句 
后 增加 CLUSTER BY 语句 。 
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对 于 所 有 表 的 元 数据 ， 指 定 分 桶 并 不 能 保证 表 可 以 正确 地 填 
充 。 用 户 可 以 根据 前 面 的 示例 来 确保 和 是否 正确 地 填充 了 表 。 


分 彬 有 几 个 优点 。 因 为 桶 的 数量 是 固定 的 ， 所 以 它 没 有 数据 波 
动 。 桶 对 于 抽样 再 合适 不 过 。 如 果 两 个 表 都 是 按照 user_id 进 行 分 桶 的 
话 ， 那 么 Hive 可 以 创建 一 个 逻辑 上 正确 的 抽样 。 分 桶 同时 有 利于 执行 
高 效 的 map-side JOIN ， 正 如 我 们 在 第 6.4.9:m“map-side JOIN” 中 讨论 过 
的 一 样 。 


9.7 为 表 增 加 列 


Hive 人 允许 在 原始 数据 文件 之 上 定义 一 个 模式 ， 而 不 像 很 多 的 数据 
库 那 样 ， 要 求 必 须 以 特定 的 格式 转换 和 导入 数据 。 这 样 的 分 离 方式 的 
好 处 是 ， 当 为 数据 文件 增加 新 的 字段 时 ， 可 以 容易 地 适应 表 定 义 的 模 


式 


Hive 提 供 了 SerDe 抽 象 ， 其 用 于 从 输入 中 提取 数据 。SerDe 同 样 用 
于 输出 数据 ， 尽 管 输出 功能 并 非 经 党 使 用， 因为 Hive 主 要 用 于 查询 。 
一 个 SerDe 通 常 是 从 左 到 右 进行 解析 的 。 通 过 指定 的 分 隔 符 将 行 分 解 成 
列 。SerDe 通 常 是 非常 宽松 的 。 例 如 ， 如 果 某 行 的 字段 个 数 比 预期 的 要 
少 ， 那 么 缺少 的 字段 将 返回 null。 如 果 某 行 的 字段 个 数 比 预期 的 要 
多 ， 那 么 多 出 的 字段 将 会 被 省 略 掉 。 增 加 新 字段 的 命令 只 需要 一 条 
ALTER TABLE ADD COLUMN 命 令 就 可 完成 。 因 为 日 志 格 式 通 常 是 对 
己 有 字段 增加 更 多 信息 ， 所 以 这 样 是 非常 有 用 的 : 


hive> CREATE TABLE weblogs (version LONG, url] STRING) 
> PARTITIONED BY (hit_date int) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 


hive> ! cat log1.txt 


hive> LOAD DATA LOCAL INPATH 'logi1.txt' int weblogs partition(20110101) ， 


hive> SELECT * FROM weblogs; 
1 /mystuff 20110101 
1 /toys 20110101 


随 看 时 间 的 推移 ， 可 能 会 为 底层 数据 增加 一 个 新 字段 。 如 下 这 个 
例子 束 是 展示 为 数据 新 增 user_ id 字段 的 过 程 。 需 要 注意 的 是 ， 一 些 旧 
的 原始 数据 文件 可 能 不 包含 这 个 字段 : 


hive> ! cat log2.txt 
2 /cars bob 
2 /Stuff terry 


hive> ALTER TABLE weblogs ADD COLUMNS (user_id string); 
hive> LOAD DATA LOCAL INPATH 'log2.txt' int weblogs partition(20110102 ) ， 


hive> SELECT * from weblogs 
1 /mystuff 20110101 NULL 


1 /toys 20110101 NULL 
2 /cars 20110102 bob 
2 /stuff 20110102 terry 


需要 注意 的 是 ， 通 过 这 种 方式 ， 无 法 在 已 有 字段 的 开始 或 者 中 间 
增加 新 字段 。 


9.8 ”使 用 列 存储 表 


Hive 通 常 使 用 行 式 存储 ， 不 过 Hive 也 提供 了 一 个 列 式 SerDe 来 以 混 
合 列 式 格 式 存储 信息 。 虽 然 这 种 格式 是 可 以 用 于 任意 类 型 的 数据 的 ， 
不 过 对 于 某 些 数据 集 使 用 这 种 方式 是 最 优 的 。 


9.8.1 重复 数据 
假设 有 足够 多 的 行 ， 像 state 字 段 和 age 字段 这 样 的 列 将 会 有 很 多 重 


复 的 数据 。 这 种 类 型 的 数据 如 采 使 用 列 式 存储 将 会 非常 好 ， 如 表 9-1 所 
示 “。 


表 9-1 有 3 个 字段 的 样 例 表 


9.8.2 多 列 
表 9-2 具 有 非常 多 的 字段 。 


表 9-2 有 众多 字段 的 样 例 表 


| 
wy 


Se 
Wy 
ee 


查询 通常 只 会 使 用 到 一 个 字段 或 者 很 少 的 一 组 字段 。 基 于 列 式 存 
储 将 会 使 分 析 表 数据 执行 得 更 快 : 


hive> SELECT distinct(state) from web1ogs 
NY 


NJ 


用 户 可 以 参考 第 15.3.2 节 “RCFile” 内 容 来 看 看 如 何 使 用 这 种 格式 。 


9.9 ” (几乎 ) 总 是 使 用 压缩 


几乎 在 所 有 情况 下 ， 压 缩 都 可 以 使 磁盘 上 存储 的 数据 量变 小 ， 这 
样 可 以 通过 降低 VO 来 提高 查询 执行 速度 。Hive 可 以 无 颖 地 使 用 很 多 压 
缩 类 型 。 不 使 用 压缩 唯一 令 人 信服 的 理由 就 是 产生 的 数据 用 于 外 部 系 
统 ， 或 者 非 压缩 格式 (例如 文本 格式 ) 是 最 兼容 的 。 


但 是 压缩 和 解压 缩 都 会 消耗 CPU 资源 。MapReduce 任 务 往往 是 IO 
密集 型 的 ， 因 此 CPU 开销 通常 不 是 问题 。 不 过 ， 对 于 工作 流 这 样 的 


CPU 密集 型 的 场景 ， 例 如 一 些 机 需 学 习 算法 ， 上 压缩 实际 上 可 能 会 从 更 
多 必要 的 操作 中 获取 至 贯 的 CPU 资源 ， 从 而 降低 性 能 。 


第 11 革 “其 他 文件 格式 和 压缩 方法 ”中 有 关于 如 何 使 用 压缩 更 详细 
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第 10 章 ” 调 优 


HiveQL 是 一 种 声明 式 语言 ， 用 户 会 提交 声明 式 的 查询 ， 而 Hive 会 
将 其 转换 成 MapReduce job。 大 多 数 情况 ， 用 户 不 需要 了 解 Hive 内 部 是 
如 何 工作 的 ， 这 样 可 以 专注 于 手头 上 的 事情 。 而 内 部 复杂 的 查询 解 
析 、 规 划 、 优 化 和 执行 过 程 是 由 Hive 开 发 团队 多 年 的 艰难 工作 来 实现 
的 ， 不 过 大 部 分 时 间 用 户 可 以 直接 无 视 这 些 内 部 逻辑 。 


不 过 ， 当 用 户 对 于 Hive 具 有 越 来 越 多 的 经 验 后 ， 学 习 下 Hive 背 后 
的 理论 知识 以 及 底层 的 一 些 实现 细节 ， 会 让 用 户 更 加 高 效 地 使 用 


Hive ° 

本 章 将 会 分 儿 种 不 同 的 议题 来 介绍 Hive 性 能 调 优 。 一 些 调 优 涉及 
到 调整 配置 参数 的 值 《就 像 * 调 整 旋钮 ”一样 ) ， 而 其 他 一 些 调 优 过 程 
则 包括 局 用 或 者 人 禁用 某 些 特定 的 特性 。 


10.1 使 用 EXPLAIN 


学 习 Hive 是 如 何 工 作 的 (在读 完 本 书 之 后 ) 第 一 个 步骤 就 是 学 习 
EXPLAIN 功 能 ， 其 可 以 帮助 我 们 学 习 Hive 是 如 何 将 查询 转化 成 
MapReduce 任 务 的 。 


思考 下 面 这 个 例 于 : 


hive> DESCRIBE onecol; 
number int 


hive> SELECT * FROM onecol; 
5 


5 
4 


hive> SELECT SUM(number) FROM onecol; 
14 


现在 ， 我 们 在 前 面 例子 中 最 后 一 个 查询 语句 前 加 上 EXPLAIN 关 键 
字 ， 然 后 来 查询 下 查询 计划 和 其 他 一 些 信息 。 这 个 查询 本 映 是 不 会 执 
行 了 的。 


上 面 查询 语句 的 输出 需要 一 些 解 释 和 实践 才能 够 理解 。 


首先 ， 会 打印 出 抽象 语法 树 。 它 表明 Hive 是 如 何 将 查询 解析 成 
token( 符 号 ) 和 literal( 字 面值 ) 的 ， 有 是 第 一 步 将 查询 园 化 到 最 终结 果 的 一 


ABSTRACT SYNTAX TREE: 
(TOK_QUERY 
(TOK_FROM (TOK_TABREF (TOK_TABNAME onecol) )) 
(TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE) ) 


(TOK_SELECT 
(TOK_SELEXPR 
(TOK_FUNCTION sum (TOK_TABLE_OR_COL number)))))) 


对 于 那些 不 熟悉 解析 器 和 分 词 器 的 用 户 来 说 ， 这 个 看 起 来 令 人 难 

以 应 付 。 不 过 ， 即 使 用 户 是 这 个 领域 的 新 手 ， 也 是 可 以 来 研究 下 这 个 
输出 信息 的 。 这 样 可 以 方便 用 户 了 解 Hive 征 怎么 处 理 SQL 语句 的 。 
(作为 第 一 步 ， 用 户 可 以 忽略 掉 TOK_ 这 个 前 级 来 查看 输出 信息 。) 


尽管 我 们 的 查询 会 将 其 输出 写 入 到 控制 台 ， 但 Hive 实 际 上 会 先 将 
输出 写 入 到 一 个 临时 文件 中 ， 正 如 下 面 输出 信息 中 所 表示 的 : 


接 下 来 ， 我 们 可 以 看 到 列 名 number， 以 及 表 和 名 onecol， 还 有 sum 画 


又 


一 个 Hive 任 务 会 包含 有 一 个 或 多 个 stage( 扩 战 )， 不 同 的 stage 则 会 
存在 着 依赖 关系 。 正 如 用 户 可 以 预料 到 的 ， 越 复杂 的 查询 通常 将 会 引 
入 越 多 的 stage， 而 通常 stage 越 多 就 需要 越 多 的 时 间 来 完成 任务 。 


一 个 stage 可 以 是 一 个 MapReduce 任 务 ， 也 可 以 是 一 个 抽样 阶段 ， 
或 者 一 个 合并 阶段 ， 还 可 以 是 一 个 limit 阶 段 ， 以 及 Hive 需 要 的 其 他 某 
个 任务 的 一 个 阶段 。 默 认 情 况 下 ，Hive 会 一 次 只 执行 一 个 stage( 阶 
段 )， 不 过 我 们 稍 后 将 在 第 10.6 广 “并 行 执行 * 中 讨论 如 何 并 行 执 行 。 


某 些 阶 段 执 行 时 间 很 短 ， 像 将 文件 转移 到 其 他 路 径 下 这 样 的 操 
作 ; 其 他 一 些 阶段 如 果 数 据 量 小 ， 那 么 执行 也 是 很 快 的 ， 即 使 有 时 它 
们 需要 一 个 map 过 程 或 reduce 过 程 : 


STAGE DEPENDENCIES: 
Stage-1 is a root stage 
Stage-0 is a root stage 


STAGE PLAN 部 分 比较 见长 也 比较 复杂 。Stage-1 包 含 了 这 个 job 的 
大 部 分 处 理 过 程 ， 而 且 会 触发 一 个 MapReduce job。TableScan 以 这 个 表 
作为 输入 ， 然 后 会 产生 一 个 只 有 字段 number 的 输出 。Group By 
Operator 会 应 用 到 sum(number)， 然 后 会 产生 一 个 输出 字段 _col0( 这 是 为 
临时 结果 字段 按 规则 起 的 临时 字段 名 )。 这 些 都 是 发 生 在 job 的 map 处 理 
阶段 过 程 ， 也 就 是 都 是 位 于 Map Operator Tree 下 面 的 : 


STAGE PLANS: 
Stage: Stage-1 
Map Reduce 
Alias -> Map Operator Tree: 
onecol 
TableScan 
alias: onecol 
Select Operator 
expressions: 
expr: number 
type: int 
outputColumnNames: number 
Group By Operator 
aggregations: 
expr: sum(number) 
bucketGroup: false 
mode: hash 
outputColumnNames: _col0 
Reduce Output Operator 
sort order: 
tag: -1 
value expressions: 
expr: _col0 
type: bigint 


在 reduce 过 程 这 边 ， 也 就 是 Reduce Operator Tree 下 面 ， 我 们 可 以 看 
到 相同 的 Group by Operator， 但 是 这 次 其 应 用 到 的 是 对 _col0 字 段 进行 
sum 操 作 。 最 后 ， 在 reducer 中 我 们 看 到 了 File Output Operator， 其 说 明 
了 输出 结果 将 是 文本 格式 ， 是 基于 字符 串 的 输出 格式 : 


HivelgnoreKeyTextOutputFormat: 


Reduce Operator Tree: 
Group By Operator 
aggregations: 
expr: Sum(VALUE,_col90 ) 
bucketGroup: false 
mode: mergepartial 
outputColumnNames: _col0 
Select Operator 
expressions: 
expr: _col0 
type: bigint 
outputColumnNames: _col0 
File Output Operator 
compressed: false 
GlobalTableId: 0 
table: 
input format: org.apache.hadoop.mapred.TextInputFormat 
output format: 
org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat 


因为 这 个 job 没有 LIMIT 语 句 ， 因 此 Stage-0 阶 段 是 一 个 没有 任何 操 
作 的 阶段 : 


Stage: Stage-0 
Fetch Operator 
Jimit: -1 


理解 Hive 是 如 何 对 每 个 查询 进行 解析 和 计划 的 复杂 的 细节 并 非 总 
征 有 用 的 。 不 过 ， 这 十分 析 复 杂 的 或 执行 效率 低 的 查询 的 一 个 不 错 的 
方式 ， 特 别 古 当 我 们 需要 壬 试 各 种 各 样 的 调 优 方式 时 。 我 们 可 以 在 “多 
错 " 层 查看 到 这 些 调 整 会 产生 什么 笠 的 影响 ， 这 样 可 以 关联 到 性 能 的 度 


人 时” 


10.2 EXPLAIN EXTENDED 


使 用 EXPLAIN EXTENDED 语 句 可 以 产生 更 多 的 输出 信息 。 为 了 
方便 起 见 ， 我 们 不 会 展示 完整 的 输出 ， 不 过 我 们 将 会 展示 Reduce 
Operator Tree 来 演示 输出 的 不 同 点 : 


Reduce Operator Tree: 
Group By Operator 
aggregations : 
expr: sum(VALUE._col10) 

bucketGroup: false 
mode: mergepartial 
outputColumnNames: _col0 
Select Operator 


expressions: 
expr: _col0 
type: bigint 
outputColumnNames: _col0 
File Output Operator 
compressed: false 
GlobalTableId: 0 
directory: file:/tmp/edward/hive_2012-[long number]/-ext-10001 
NumFilesPerFileSink: 1 
Stats Publishing Key Prefix: 
file:/tmp/edward/hive_2012-[long number]/-ext-10001/ 
table: 
input format: org.apache.hadoop.mapred.TextIinputFormat 
output format: 
org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat 
properties: 
columns _col0 
columns.types bigint 
escape.delim \ 
serialization.format 1 
TotalFiles: 1 
GatherStats: false 
MultiFileSpray: false 


强烈 建议 用 户 比 较 下 这 两 个 Reduce Operator Tree 下 的 输出 。 


10.3 ”限制 调整 


LIMIT 语 句 是 大 家 经 常 使 用 到 的 ， 经 常 使 用 CLI 的 用 户 都 会 使 用 
到 。 不 过 ， 在 很 多 情况 下 LIMIT 语 句 还 是 需要 执行 整个 查询 语句 ， 然 
后 再 返回 部 分 结果 的 。 因 为 这 种 情况 通常 是 浪费 的 ， 所 以 应 该 尽 可 能 
地 避免 出 现 这 种 情况 。Hive 有 一 个 配置 属性 可 以 开启 ， 当 使 用 LIMTI 
语句 时 ， 其 可 以 对 源 数据 进行 抽样 : 


<property> 
<name>hive.1imit.optimize.enable</name> 
<value>true</value> 


<description>whether to enable to optimization to 
try a smaller subset of data for simple LIMIT first.</description> 
</property> 


一 旦 属性 hive.limit.optimize.enable 的 值 设 置 为 tue， 那 么 还 会 有 两 
个 参数 可 以 控制 这 个 操作 ， 也 就 是 hive.limit.row.max.size 和 
hive.limit.optimize.limit.file: 
<property> 


<name>hive.1limit.row.max.size</name> 
<value>100000</value> 


<description>when trying a smaller subset of data for simple LIMIT, 
how much size we need to guarantee each row to have at least. 
</description> 
</property> 


<property> 
<name>hive.l1imit.optimize.1imit.file</name> 
<value>10</value> 
<description>when trying a smaller subset of data for simple LIMIT, 
maximum number of files we can sample.</description> 
</property> 


这 个 功能 的 一 个 缺点 就 是 ， 有 可 能 输入 中 有 用 的 数据 永远 不 会 被 
处 理 到 ， 例 如 ， 像 任意 的 一 个 需要 reduce 步 又 的 查询 ，JOIN 和 GROUP 
BY 探 作 ， 以 及 聚合 国 数 的 大 多 数 调 用 ， 等 等 ， 将 会 产生 很 不 同 的 结 
。 也许 这 个 差异 在 很 多 情况 下 是 可 以 接受 的 ， 但 是 重要 的 是 要 理 
如。 


10.4 JOIN 优化 


在 第 6.4.2 节 “JOIN 优 化 "和 第 6.4.9 节 “map-side JOIN” 中 我 们 讨论 过 
如 何 优化 job 性 能 。 这 里 我 们 不 会 再 次 重新 进行 说 明 ， 不 过 需要 提醒 目 
己 要 清楚 哪个 表 是 最 大 的 ， 并 将 最 大 的 表 放 置 在 JOIN 语句 的 最 右边 ， 
或 者 直接 使 用 /* streamtable(table_name) */ 语 句 指出 。 


如 有 果 所 有 表 中 有 一 个 表 足 够 得 小 ， 是 可 以 完成 载 入 到 内 存 中 的 ， 
那么 这 时 Hive 可 以 执行 一 个 map-side JOIN ， 这 样 可 以 减少 reduce 过 
程 ， 有 时 甚至 可 以 减少 某 些 map task 任 务 。 有 时 候 即 使 某 些 表 不 适合 
载 入 内 存 也 可 以 使 用 mapJOIN， 因 为 减少 reduce 阶 段 可 能 比 将 不 太 大 
的 表 分 发 到 每 个 map task 中 会 带 来 更 多 的 好 处 。 


10.5 “本 地 模式 


大 多 数 的 Hadoop Job 是 需要 Hadoop 提 供 的 完整 的 可 扩展 性 来 处 理 
大 数据 集 的 。 不 过 ， 有 时 Hive 的 输入 数据 量 是 非常 小 的 。 在 这 种 情况 
下 ， 为 查询 触发 执行 任务 的 时 间 消 耗 可 能 会 比 实际 job 的 执行 时 间 要 多 
得 多 。 对 于 大 多 数 这 种 情况 ，Hive 可 以 通过 本 地 模式 在 单 台 机 器 上 
(或 某 些 时 候 在 单个 进程 中 ) 处 理 所 有 的 任务 。 对 于 小 数据 集 ， 执 行 
时 间 可 以 明显 被 缩短 。 


用 户 可 以 按照 如 下 这 个 例子 中 所 演示 的 方式 ， 在 执行 过 程 中 临时 
启用 本 地 模式 : 


hive> set oldjobtracker=${hiveconf:mapred.job.tracker}; 


hive> set mapred.job.tracker=local; 


hive> set mapred.tmp.dir=/home/edward/tmp; 


hive> SELECT * from people WHERE firstname=bob 


hive> set mapred.job.tracker=${0ldjobtracker}; 


用 户 可 以 通过 设置 属性 hive.exec.mode.local.auto 的 值 为 tue， 来 让 
Hive 在 适当 的 时 候 上 自动 启动 这 个 优化 。 通 常用 户 可 以 将 这 个 配置 写 在 
$HOME/.hiverc 文 件 中 。 


如 宁 硕 望 对 所 有 的 用 户 都 使 用 这 个 配置 ， 那 么 可 以 将 这 个 配置 项 
增加 到 8$HIVE_FOMEAconfphive-site.xml 文 件 中 : 
<property> 


<name>hive.exec.mode.local.auto</name> 
<value>true</value> 


<description> 
Let hive determine whether to run in local mode automatically 
</description> 
</property> 


10.6 ”并 行 执 行 


Hive 会 将 一 个 查询 转化 成 一 个 或 者 多 个 阶段 。 这 样 的 阶段 可 以 是 
MapReduce 阶 段 、 抽 样 阶 段 、 合 并 阶段 、limit 阶 段 ， 或 者 Hive 执 行 过 
程 中 可 能 需要 的 其 他 阶段 。 默 认 情 况 下 ，Hive 一 次 只 会 执行 一 个 阶 
段 。 不 过 ， 茶 个 特定 的 job 可 能 包含 众多 的 阶段 ， 而 这 些 阶段 可 能 并 非 
完全 互相 依赖 的 ， 也 束 是 说 有 些 阶段 是 可 以 并 行 执行 的 ， 这 样 可 能 使 
得 整个 job 的 执行 时 间 缩 短 。 不 过 ， 如 有 果 有 更 多 的 阶段 可 以 并 行 执行 ， 
那么 job 可 能 束 越 快 完成 。 


通过 设置 参数 hive.exec.parallel 值 为 true， 束 可 以 开启 并 发 执行 。 
不 过 ， 在 共享 集群 中 ， 需要 注意 下 ， 如 果 job 中 并 行 执 行 的 阶段 增多 ， 
那么 集群 利用 率 就 会 增加 : 


<property> 
<name>hive.exec.parallel</name> 


<value>true</value> 
<description>whether to execute jobs in parallel</description> 
</property> 


10.7 ”严格 模式 


Hive 提 供 了 一 个 严格 模式 ， 可 以 防止 用 户 执行 那些 可 能 产生 意 想 
不 到 的 不 好 的 影响 的 查询 。 


通过 设置 属性 hive.mapred.mode 值 为 strict 可 以 禁止 3 种 类 型 的 查 
询 。 


其 一 ， 对 于 分 区 表 ， 除 非 WHEHRE 语 句 中 含有 分 区 字段 过 滤 条 件 
来 限制 数据 范围 ， 否 则 不 允许 执行 。 换 句 话说， 就 是 用 户 不 允许 扫描 
所 有 分 区 。 进 行 这 个 限制 的 原因 是 ， 通 常 分 区 表 都 拥有 非常 大 的 数据 
集 ， 而 且 数 据 增加 迅速 。 没 有 进行 分 区 限制 的 查询 可 能 会 消耗 令 人 不 


可 接受 的 巨大 货源 来 处 理 这 个 表 : 


hive> SELECT DISTINCT(planner_id) FROM fracture_ins WHERE planner_id=5; 
FAILED: Error in semantic analysis: No Partition Predicate Found for 


Alias "fracture_ins" Table "fracture_ ins" 


如 下 这 个 语句 在 WHERE 语句 中 增加 了 一 个 分 区 过 滤 条 件 (也 就 
征 限 制 了 表 分 区 ) : 


hive> SELECT DISTINCT(planner_id) FROM fracture_ins 
> WHERE planner_id=5 AND hit_date=20120101 


. normal results ... 


其 二 ， 对 于 使 用 了 ORDER BY 语句 的 查询 ， 要 求 必须 使 用 LIMIT 
语句 。 因 为 ORDER BY 为 了 执行 排序 过 程 会 将 所 有 的 结果 数据 分 发 到 
同一 个 reducer 中 进行 处 理 ， 强 制 要 求 用 户 增加 这 个 LIMIT 语 句 可 以 防 
止 reducer 额 外 执行 很 长 一 段 时 间 : 


hive> SELECT * FROM fracture_ins WHERE hit_date>2012 ORDER BY planner_id; 
FAILED: Error in semantic analysis: line 1:56 In strict mode, 


Jimit must be specified if ORDER BY is present planner_id 


只 需要 增加 LIMIT 语 句 就 可 以 解决 这 个 问题 : 


hive> SELECT * FROM fracture_ins WHERE hit_date>2012 ORDER BY planner_ id 


> LIMIT 100000 ; 
. normal results ... 


其 三 ， 也 就 是 最 后 一 种 情况 ， 就 是 限制 笛 卡 尔 积 的 查询 。 对 关系 
型 数据 库 非 常 了 解 的 用 户 可 能 期 望 在 执行 JOIN 查询 的 时 候 不 使 用 ON 
语句 而 是 使 用 WHERE 语句 ， 这 样 关 系 型 数据 库 的 执行 优化 器 就 可 以 
高 效 地 将 WHERE 语句 转化 成 那个 ON 语句 。 不 幸 的 是 ，Hive 并 不 会 执 
A 因此 ， 如 果 表 足够 大 ， 那 么 这 个 查询 就 会 出 现 不 可 控 的 
情况 : 


hive> SELECT * FROM fracture act JOIN fracture_ads 
> WHERE fracture act.planner_id = fracture ads.planner_id; 


FAILED: Error in semantic analysis: In strict mode, cartesian product 
is not allowed. If you really want to perform the operation, 
+Set hive.mapred.mode=nonstrict+ 


下 面 这 个 才 有 是 个 正确 的 使 用 JOIN 和 ON 语句 的 得 询 : 


hive> SELECT * FROM fracture act JOIN fracture_ads 
> ON (fracture_act.planner_ id = fracture ads.planner_id); 


. normal results ... 


10.8 ”调整 mapper 和 reducer 个 数 


Hive 通 过 将 查询 划分 成 一 个 或 者 多 个 MapReduce 任 务 达 到 并 行 的 
目的 。 每 个 任务 都 可 能 具有 多 个 mapper 和 reducer 任 务 ， 其 中 至 少 有 一 
些 是 可 以 并 行 执行 的 。 确 定 最 佳 的 mapper 个 数 和 reducer 个 数 取 决 于 多 
个 变量 ， 例 如 输入 的 数据 量 大 小 以 及 对 这 些 数 据 执行 的 操作 类 型 等 。 


保持 平衡 性 是 有 必要 的 。 如 采 有 太 多 的 mapper 或 reducer 任 务 ， 忠 
会 导致 司 动 阶段 、 调 度 和 运行 job 过 程 中 产生 过 多 的 开销 ;而 如 果 设 置 
的 数量 太 少 ， 那 么 束 可 能 没有 充分 利用 好 集群 内 在 的 并 行 性 。 


当 执 行 的 Hive 查 询 具 有 reduce 过 程 时 ，CLI 控 制 台 会 打印 出 调 优 后 
的 reducer 个 数 。 下 面 我 们 来 看 一 个 包 售 有 GROUP BY 语句 的 例子 ， 
为 这 种 查询 总 是 需要 reduce 过 程 的 。 与 此 相反 ， 很 多 其 他 查询 会 转换 
成 只 需要 map 阶 段 的 任务 : 


hive> SELECT pixel_id, count FROM fracture_ins WHERE hit_date=20120119 
> GROUP BY pixel_id， 


Total MapReduce jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks not specified. Estimated from input data size: 3 
In order to change the average load for a reducer (in bytes ) : 
set hive.exec.reducers.bytes.per.reducer=<number> 
In order to limit the maximum number of reducers: 
set hive.exec.reducers.max=<number> 
In order to set a constant number of reducers: 
set mapred.reduce.tasks=<number> 


Hive 征 按照 葵 入 的 数据 量 入 小 来 硝 定 reducer 个 数 的 。 我 们 可 以 通 
过 dfs -count 命 令 来 计算 输入 量 大 小 ， 这 个 命令 和 Linux 中 的 du -s 命 令 
类 似 ， 其 可 以 计算 指定 目录 下 所 有 数据 的 总 大 小 : 


[edward@et102 ~]$ hadoop dfs -count /user/media6/fracture/ins/* | tail -4 
1 8 2614608737 hdfs://.../user/media6/fracture/ins/hit_date=20120118 

1 7 2742992546 hdfs://.../user/media6/fracture/ins/hit_date=20120119 

1 17 2656878252 hdfs://.../user/media6/fracture/ins/hit_date=20120120 

1 2 362657644 hdfs://.../user/media6/fracture/ins/hit_date=20120121 


(为 了 方便 排版 查看 ， 我 们 对 实际 的 数据 进行 了 格式 化 并 省 略 挥 
了 一 些 详细 信 , 电 。) 


属性 hive.exec.reducers.bytes.per.reducer 的 默认 值 是 1GB。 如果 将 
个 属性 值 调 整 为 750MB 的 话 ， 那 么 下 面 这 个 任务 Hive 束 会 使 用 4 个 


reducer: 


这 


hive> set hive.exec.reducers.bytes.per.reducer=750000000; 


hive> SELECT pixel_id,count(1) FROM fracture_ins WHERE hit_date=20120119 
> GROUP BY pixel id; 


Total MapReduce jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks not specified. Estimated from input data size: 4 


默认 值 通常 情况 下 是 比较 合适 的 。 不 过 ， 有 些 情况 下 查询 的 map 
阶段 会 产 0 多 的 数据 。 如 果 map 阶 段 产 生 的 
数据 量 非常 那么 根据 输入 的 数据 量 大 小 来 确定 的 reducer 个 数 就 显 
得 有 些 些 少 了 。 。 间 样 地 ， map 阶 段 也 可 能 会 过 滤 掉 输入 数据 集中 的 很 大 
一 部 分 的 数据 而 这 时 可 能 需要 少量 的 reducer 就 满足 计算 了 。 


一 个 快速 的 进行 验证 的 方式 就 是 将 reducer 个 数 设 置 为 固定 的 值 ， 
而 无 需 I five 来 计算 得 到 这 个 条 。 。 如 采用 户 还 记得 的 话 ，Hive 的 默认 
reducer 个 数 应 该 是 3。 可 以 通过 设置 属性 mapred.reduce.tasks 的 值 为 不 


同 的 值 来 确定 是 使 用 较 多 还 是 较 少 的 reducer 来 缩短 执行 时 间 。 需 要 记 
住 ， 受 外 部 因素 影响 ， 像 这 样 的 标杆 值 十 分 复杂 ， 例 如 其 他 用 户 并 发 
执行 job 的 情况 。Hadoop 需 要 消耗 好 几 秒 时 间 来 局 动 和 调度 map 和 
reduce 任 务 (task) 。 在 进行 性 能 测试 的 时 候 ， 要 考虑 到 这 些 影响 
子 ， 特 别 是 job 比较 小 的 时 候 。 


当 在 共享 集群 上 处 理 大 任务 时 ， 为 了 控制 资源 利用 情况 ， 属 性 
hive.exec.reducers.max 显 得 非常 重要 。 一 个 Hadoop 集 群 可 以 提供 的 map 
和 reduce 资 源 个 数 〈 也 称 为 “ 搬 槽 >) ， 是 固定 的 。 某 个 大 job 可 能 就 会 
消耗 完 所 有 的 插 横 ， 从 而 导 任 其 他 job 无 法 执行 。 通 过 设置 属性 
hive.exec.reducers.max 可 以 阻止 某 个 查询 消耗 太 多 的 reducer 资 源 。 有 必 
要 将 这 个 属性 配置 到 $HIVE_HOME/conf/hive-site.xml 文 件 中 。 对 这 个 
属性 值 大 小 的 一 个 建议 的 计算 公式 如 下 : 


1.5 倍 数 是 一 个 经 验 系 数 ， 用 于 防止 未 充分 利用 集群 的 情况 。 


10.9 JVM 重 用 


JVM 重 用 是 Hadoop 调 优 参 数 的 内 容 ， 其 对 Hive 的 性 能 具有 非常 大 
的 影响 ， 特 别 是 对 于 很 难 避 免 小 文件 的 场景 或 task 特 别 多 的 场景 ， 这 
类 场景 大 多 数 执行 时 间 都 很 短 。 


Hadoop 的 默认 配置 通常 是 使 用 派生 JVM 来 执行 map 和 reduce 任 务 
的 。 这 时 JVM 的 局 动 过程 可 能 会 造成 相当 大 的 开销 ， 尤 其 是 执行 的 job 
包含 有 成 百 上 于 个 task 任 务 的 情况 。JVM 重 用 可 以 使 得 JVM 实 例 在 同 
一 个 job 中 重新 使 用 N 次 。N 的 值 可 以 在 Hadoop 的 mapred-site.xml 文 件 
(位 于 $HADOOP_HOME/conf 目 录 下 ) 中 进行 设置 . 


<property> 
<name>mapred.job.reuse.jvm.num,.tasks</name> 
<value>10</value> 


<description>How many tasks to run per jvm. If set to -1, there is no limit. 
</description> 
</property> 


这 个 功能 的 一 个 缺点 是 ， 开 启 JVM 重 用 将 会 一 直 占 用 使 用 到 的 
task 插 模 ， 以 便 进行 重用 ， 直 到 任务 完成 后 才能 释放 。 如 果菜 个 “不 平 


衡 的 ”的 job 中 有 某 几 个 reduce task 执 行 的 时 间 要 比 其 他 reduce task 消 耗 
的 时 间 多 得 多 的 话 ， 那 么 保留 的 手 槽 就 会 一 直 空 内 着 却 无 法 被 其 他 的 
job 使 用 ， 直 到 所 有 的 task 都 结束 了 才 会 释放 。 


10.10 ”索引 
索引 可 以 用 来 加 快 含有 GROUP BY 语句 的 查询 的 计算 速度 。 


Hive 从 v0.8.0 版 本 后 增加 了 一 个 bitmap 索 引 实 现 。 Bitmap 索 引 一 般 
在 指定 的 列 排 重 后 的 值 比较 小 时 进行 使 用 。 请 参考 第 8.1.17m“Bitmap 索 
引 ” 中 的 详细 说 明 。 


10.11 动态 分 区 调整 


正如 在 第 5.2.15“ 动 态 分 区 插入 ”中 所 讲解 过 的 一 样 ， 动 态 分 区 
INSERT 语 句 可 以 通过 简单 的 SELECT 语句 向 分 区 表 中 创建 很 多 新 的 分 
区 汉 


这 征 一 个 非常 强大 的 功能 ， 不 过 如 有 打分 区 的 个 数 非常 得 多 ， 那 么 
忠 会 在 系统 中 产生 大 量 的 输出 控制 流 。 对 于 Hadoop 来 说 ， 这 个 种 情况 
并 不 是 第 见 的 使 用 场景 ， 因 此 ， 其 通常 会 一 次 创建 很 多 的 文件 ， 然 后 
会 同 这 些 文件 中 写 入 大 量 的 数据 。 


跳出 这 些 框框 ，Hive 可 以 通过 配置 限制 动态 分 区 插入 允许 创建 的 
分 区 数 在 1000 个 左右 。 昌 然 太 多 的 分 区 对 于 表 来 说 并 不 好 ， 不 过 ， 通 
常 还 是 将 这 个 值 设置 的 更 大 以 便 这 些 查 询 执 行 。 


目 和 完 ， 通 常 在 hive-site.xml 配 置 文件 中 设置 动态 分 区 模式 为 闫 格 模 
式 〈 也 就 是 属性 值 为 strict) ， 这 个 配置 在 第 10.7 节 “严格 模式 ?中 有 介 
绍 过 。 开 局 三 格 模式 的 时 候 ， 必 须 保证 至 少 有 一 个 分 区 是 静态 的 ， 正 
如 在 第 5.2.17“ 动 态 分 区 插入 ”中 所 展示 的 。 


<property> 
<name>hive.exec.dynamic.partition.mode</name> 
<value>strict</value> 
<description>In strict mode, the user must specify at least one 


static partition in case the user accidentally overwrites all 
partitions.</description> 
</property> 


然后 ， 可 以 增加 一 些 相关 的 属性 信息 ， 例 如 通过 如 下 属性 来 限制 
查询 可 以 创建 的 最 大 动态 分 区 个 数 : 


<property> 
<name>hive.exec.max.dynamic.partitions</name> 
<value>300000</value> 
<description>Maximum number of dynamic partitions allowed to be 

created in total.</description> 

</property> 


<property> 
<name>hive.exec.max.dynamic.partitions,.pernode</name> 
<value>10000</value> 
<description>Maximum number of dynamic partitions allowed to be 

created in each mapper/reducer node.</description> 

</property> 


还 有 一 个 配置 是 来 控制 DataNode 上 一 次 可 以 打开 的 文件 的 个 数 。 
这 个 参数 必须 设置 在 DataNode 的 $sHADOOP_HOME/conf/hdfs-site.xml 
配置 文件 中 。 


在 Hadoop v0.20.2 版 本 中 ， 这 个 属性 的 默认 值 是 256， 太 小 了 人 。 这 
个 值 会 影响 到 最 大 的 线程 数 和 资源 数 ， 因 此 ， 也 并 不 推荐 将 这 个 属性 
值 设置 为 一 个 极 大 值 。 同 时 需要 注意 的 是 ， 在 Hadoop v0.20.2 版 本 中 ， 
更 改 这 个 属性 值 需要 重启 DataNode 才 能 够 生效 : 


<property> 
<name>dfs.datanode.max.xcievers</name> 
<value>8192</value> 

</property> 


10.12 ”推测 执行 


推测 执行 是 Hadoop 中 的 一 个 功能 ， 其 可 以 触发 执行 一 些 重复 的 任 
务 (task) 。 尽 管 这 样 会 因 对 重复 的 数据 进行 计算 而 导致 消耗 更 多 的 
计算 资源 ， 不 过 这 个 功能 的 目标 是 通过 加 快 获取 单个 task 的 结果 以 及 
进行 侦 测 将 执行 慢 的 TaskTracker 加 入 到 黑 名 单 的 方式 来 提高 整体 的 任 
务 执行 效率 。 


Hadoop 的 推测 执行 功能 由 $HADOOP_HOME/conf/mapred-site.xml 
文件 中 的 如 下 2 个 配置 项 控制 着 : 


<property> 
<name>mapred.map.tasks.speculative.execution</name> 
<value>true</value> 
<description>If true, then multiple instances of some map tasks 
may be executed in parallel.</description> 

</property> 


<property> 
<name>mapred.reduce.tasks.speculative.execution</name> 
<value>true</value> 
<description>If true, then multiple instances of some reduce tasks 
may be executed in parallel.</description> 

</property> 


不 过 ，Hive 本 身 也 提供 了 配置 项 来 控制 reduce-side 的 推测 执行 : 


<property> 
<name>hive.mapred.reduce.tasks.speculative.execution</name> 
<value>true</value> 


<description>whether speculative execution for 
reducers should be turned on，</description> 
</property> 


天 于 调 优 这 些 推测 执行 变量 ， 还 很 难 给 一 个 具体 的 建议 。 如 采用 
户 对 于 运行 时 的 偏差 非常 敏感 的 话 ， 那 么 可 以 将 这 些 功 能 关闭 挥 。 如 
果 用 户 因 为 输入 数据 量 很 大 而 需要 执行 长 时 间 的 map 或 者 reduce task 的 
话 ， 那 么 启动 推测 执行 造成 的 浪费 是 非常 巨大 的 。 


10.13 ”单个 MapReduce 中 多 个 GROUP BY 


另 一 个 特别 的 优化 试图 将 查询 中 的 多 个 GROUP BY 操作 组 钱 到 单 
个 MapReduce 任 务 中 。 如 果 想 启动 这 个 优化 ， 那 么 需要 一 组 常用 的 
GROUP BY 键 : 


<property> 
<name>hive.multigroupby.singlemr</name> 
<value>false</value> 
<description>whether to optimize multi group by query to generate single M/R 


job plan. If the multi group by query has common group by keys, it will be 
optimized to generate single M/R job.</description> 
</property> 


10.14 ”虚拟 列 


Hive 提 供 了 2 种 虚拟 列 :一 种 用 于 将 要 进行 划分 的 输入 文件 名 ， 田 
一 种 用 于 文件 中 的 块 内 偏 移 量 。 当 Hive 产 生 了 非 预 期 的 或 null 的 返回 结 
果 时 ， 可 以 通过 这 些 虚 拟 列 诊断 查询 。 通 过 查询 这 些 “ 字 段 "?， 用 户 可 
以 查看 到 哪个 文件 甚至 哪 行 数据 导致 出 现 问 题 : 


hive> set hive.exec.rowoffset=true,; 


hive> SELECT INPUT__FILE NAME, BLOCK OFFSET__INSIDE FILE, line 
> FROM hive_ text WHERE line LIKE '%hive%' LIMIT 2， 
har://file/user/hive/warehouse/hive text/folder=docs/ 
data.har/user/hive/warehouse/hive_ text/folder=docs/README.txt 2243 
http://hive.apache.org/ 


har://file/user/hive/warehouse/hive text/folder=docs/ 


data.har/user/hive/warehouse/hive_text/folder=docs/README. txt 3646 
- Hive 0.8.0 ignores the hive-default.xml file, though we continue 


(为 了 方便 排版 和 查看 ， 我 们 对 输出 进行 了 格式 调整 并 且 在 输出 
行 中 间 增加 了 空 行 。) 


第 3 种 虚拟 列 提供 了 文件 的 行 偏 移 量 。 这 个 需要 通过 如 下 参数 显 式 


本 | 


<property> 
<name>hive.exec.rowoffset</name> 
<value>true</value> 


<description>whether to provide the row offset virtual column</description> 
</property> 


这 样 设置 后 就 可 以 在 类 似 于 如 下 的 查询 中 使 用 了 : 


hive> SELECT INPUT__FILE NAME, BLOCK OFFSET__INSIDE FILE, 
> ROW_ _ OFFSET__INSIDE BLOCK 
> FROM hive_ text WHERE line LIKE '%hive%' limit 2， 


file:/user/hive/warehouse/hive_ text/folder=docs/README.txt 2243 0 
file:/user/hive/warehouse/hive_ text/folder=docs/README. txt 3646 0 


第 11 章 ”其 他 文件 格式 和 压缩 方法 


Hive 的 一 个 独特 的 功能 就 是 : Hive 不 会 强制 要 求 将 数据 转换 成 特 
定 的 格式 才能 使 用 。Hive 利 用 Hadoop 的 InputFormat API 来 从 不 同 的 数 
据 源 读 取 数据 ， 例 如 文本 格式 、sequence 文 件 格 式 ， 甚 至 用 户 目 定义 
格 地 。 同 样 地 ， 使 用 OutputFormat API 也 可 以 将 数据 写成 不 同 的 格式 。 


尽管 Hadoop 的 文件 系统 支持 对 于 非 压缩 数据 的 线性 扩展 存储 ， 但 
是 对 数据 进行 压缩 还 是 有 很 大 好 处 的 。 讨 缩 通 党 都 会 万 约 可 观 的 磁盘 
空间 ， 例 如 ， 基 于 文本 的 文件 可 以 压缩 40% 甚 至 更 高 比例 。 压 缩 同样 
可 以 增加 吞吐 量 和 性 能 。 这 看 上 去 似乎 并 不 合 利 理 ， 因 为 压缩 和 解压 
缩 会 增加 额外 的 CPU 开销 ， 不 过 ， 通 过 减少 载 入 内 存 的 数据 量 而 提高 
IO 乔 吐 量 会 更 加 提高 网 络 传输 性 能 。 


Hadoop 的 job 通 常 是 1/O 密 集 型 而 不 钙 CPU 密 集 型 的 。 如 果 是 这 样 
的 话 ， 压 缩 可 以 提高 性 能 。 不 过 ， 如 采用 户 的 job 征 CPU 密集 型 的 话 ， 
那么 使 用 压缩 可 能 会 降低 执行 性 能 。 确 定 是 否 进行 压缩 的 唯一 方法 吏 
征 答 试 不 同 的 选择 ， 并 测量 对 比 执行 结果 。 


11.1 确定 安装 编 解码 器 


基于 用 户 所 使 用 的 Hadoop 版 本 ， 会 提供 不 同 的 编 解 码 右 。Hive 中 
可 以 通过 set 命 令 查看 Hive 配 置 文件 中 或 Hadoop 配 置 文件 中 配置 的 值 。 


通过 查看 属性 io.compression.codec， 可 以 看 到 编 解 码 磊 之 间 是 按 
照 逗 号 进行 分 割 的 : 


# hive -e "set io.compression.codecs" 
io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec, 
org.apache.hadoop.io.compress.DefaultCodec, 


org.apache.hadoop.io.compress.BZip2Codec, 
org.apache.hadoop.io.compress.SnappyCodec 


11.2 ”选择 一 种 压缩 编 /解码 吉 


使 用 压缩 的 优势 是 可 以 最 小 化 所 需要 的 磁盘 存储 空间 ， 以 及 减 小 
磁盘 和 网 络 IO 操作 。 不 过 ， 文 件 压 缩 过 程 和 解压 缩 过 程 会 增加 CPU 开 
销 。 因 此 ， 对 于 压缩 密集 型 的 job 最 好 使 用 压缩 ， 特 别 是 有 额外 的 CPU 
质 源 或 磁盘 存储 空间 比较 千 缺 的 情况 。 


所 有 最 新 的 那些 Hadoop 版 本 都 已 经 内 置 支持 GZIP 和 BZip2 压 缩 方 
案 了 ， 包 括 加 速 对 这 些 格式 的 压缩 和 解压 缩 的 本 地 Liunx 库 。 绑 定 支 持 
Snappy 压 缩 是 最 近 才 增加 的 ， 不 过 ， 如 果 用 户 当 前 使 用 的 Hadoop 版 本 
不 支持 该 功能 的 话 ， 那 么 自行 增加 相关 的 库 即 可 [1。 男 外 ， 还 有 一 种 
常用 的 压缩 方案 ， 即 LZO 压 缩 癌 。 


那么 ， 为 什么 我 们 需要 不 同 的 压缩 方案 呢 ? 每 一 个 压缩 方案 都 在 
压缩 /解压 缩 速度 和 压缩 率 间 进行 权衡 。BZip2 压 缩 率 最 高 ， 但 是 同时 
需要 请 耗 最 多 的 CPU 开销 。GZip 是 压缩 率 和 上 庄 缩 /解压 纵 速 度 上 的 下 一 
个 选择 。 因 此 ， 如 果 磁 盘 空 间 利 用 率 和 IO 开销 都 需要 考虑 的 话 ， 那 么 
这 2 种 压缩 方案 都 是 有 吸引 力 的 。 


LZO 和 Snappy 压 缩 率 相 比 前 面 的 2 种 有 要 小 但 是 压缩 /解压 缩 速度 要 
快 ， 特别 是 解压 缩 过 程 。 如 果 相 对 于 磁 副 空间 和 I/O 开 销 ， 频 繁 读 取 数 
据 所 需 的 解压 缩 速 度 更 重要 的 话 ， 那 么 它们 将 是 不 错 的 选择 。 


另 一 个 需要 考虑 的 因素 是 压缩 格式 的 文件 是 否 是 可 分 割 的 。 
MapReduce 需 要 将 非常 大 的 输入 文件 分 割 成 多 个 划分 (通常 一 个 文件 
块 对 应 一 个 划分 ， 也 就 是 64MB 的 倍数 ) ， 其 中 每 个 划分 会 被 分 发 到 
一 个 单独 的 map 进 程 中 。 只 有 当 Hadoop 知 道 文件 中 记录 的 边界 时 才 可 
以 进行 这 样 的 分 制 。 对 于 文本 文件 ， 每 一 行 都 是 一 条 记录 ， 但 是 GZip 
和 Snappy 将 这 些 边 界 信 息 掩盖 掉 了 。 不 过 ，BZip2 和 LZO 提 供 了 块 

(BLOCK) 级 别 的 压缩 ， 也 就 是 每 个 块 中 都 含有 完整 的 记录 信息 ， 
此 Hadoop 可 以 在 块 边界 级 别 对 这 些 文件 进行 划分 。 


虽然 GZIip 和 Snappy 压 缩 的 文件 不 可 划分 ， 但 是 并 不 能 因此 而 排除 
它们 。 当 用 户 创建 文件 的 上 时候， 可 以 将 文件 分 割 成 期 望 的 文件 大 小 。 
通常 输出 文件 的 个 数 等 于 reducer 的 个 数 。 也 就 是 说 如 果 用 户 使 用 了 N 
个 reducer， 那 么 通常 就 会 得 到 NN 个 输出 文件 。 需 要 注意 的 是 ， 如 果 有 
一 个 不 可 分 割 的 文件 特别 的 大 ， 那 么 束 会 出 现 一 个 单独 的 task 来 读 取 
整个 文件 ， 进 行 处 理 。 


关于 压缩 我 们 还 有 更 多 的 内 容 要 说 ， 不 过 我 们 推荐 用 户 参 考 Tom 
White (O'Reilly) 所 车 的 《Hadoop 编 程 指南 》 一 书 ， 这 里 ， 我 们 会 专注 
于 在 Hive 中 如 何 使 用 指定 的 格式 。 


从 Hive 的 角度 来 看 ， 对 于 文件 格式 ， 有 2 个 方面 的 内 容 需 要 说 明 。 
一 个 方面 是 文件 是 怎样 分 隔 成 行 (记录 ) 的 。 文 本 文件 使 用 \n( 换 行 符 ) 
作为 默认 的 行 分 隔 符 。 当 用 户 没 有 使 用 默认 的 文本 文件 格式 时 ， 用 户 
需要 告诉 Hive 使 用 的 InputFomat 和 OutputFormat 是 什么 。 事实 上， 用 户 
需要 指定 对 于 输入 和 输出 格式 实现 的 Java 类 的 名 称 。InputFormat 中 定 
义 了 如 何 读 取 划分 ， 以 及 如 何 将 划分 分 割 成 记录 ， 而 OutputFormat 中 
定义 了 如 何 将 这 些 划 分 写 回 到 文件 或 控制 台 输 出 中 。 


第 2 个 方面 是 记录 是 如 何 分 割 成 字段 〈 或 列 ) 的 。Hive 使 用 AA 作 
文本 文件 中 默认 的 字段 分 隔 符 。Hive 使 用 SerDe (也 就 是 序列 化 / 反 序 
列 化 的 简写 ) 作为 对 和 输入 记录 〈 反 序列 化 ) 进行 分 割 以 及 写 记 录 ( 序 
。 人 。 这 时 ， 用 户 只 需要 指定 可 以 完成 这 2 部 分 工作 的 一 个 
Java HI 。 


所 有 的 这 些 信息 用 户 在 创建 表 的 时 候 都 可 以 在 表 定 义 语句 中 进行 
指定 。 创 建 完成 后 ， 用 户 可 以 像 平时 一 样 查询 表 ， 而 无 需 关 心底 层 格 
式 。 因 此 ， 如 采用 户 是 Hive 的 使 用 者 ， 而 不 是 Java 工 程 师 ， 束 无 需 关 
心 天 于 Java 的 信息 。 如 来 需要 ， 用 户 所 在 团队 的 工程 师 可 以 帮忙 指定 
需要 的 定义 信息 ， 而 之 后 整 可 以 像 之 前 一 样 工 作 了 。 


11.3 ”开局 中 间 压 缩 


对 中 间 数 据 进行 压缩 可 以 减少 job 中 map 和 reduce task 间 的 数据 传输 
量 。 对 于 中 间 数 据 压缩 ， 选 择 一 个 低 CPU 开 销 的 编 / 解 码 絮 要 比 选 择 一 
个 压缩 率 高 的 编 /解码 如 要 重要 得 多 。 属 性 hive.exec.compress. 
intermediate 的 默认 值 是 false， 如 果 要 开启 中 间 压 缩 ， 就 需要 将 这 个 属 
性 值 修改 为 默认 值 为 true: 


<property> 
<name>hive.exec.compress.intermediate</name> 
<value>true</value> 
<description> This controls whether intermediate files produced by Hive between 


multiple map-reduce jobs are compressed. The compression codec and other options 
are determined from hadoop config variables mapred.output.compress* 
</description> 
</property> 


对 于 其 他 Hadoop job 来 说 控制 中 间 数 据 压 缩 的 属性 是 


mapred.compress.map.output ° 


Hadoop 压 缩 默 认 的 编 / 解 码 句 是 DefaultCodec。 可 以 通过 修改 属性 
mapred.map.output.compression.codec 的 值 来 修改 编 / 解 码 右 。 这 是 一 个 
Hadoop 配 置 项 ， 可 以 在 $HADOOP_HOME/confmapred-site.xml 文 件 中 
或 $HADOOP_HOME/conf/hive-site.xml 文 件 中 进行 配置 。SnappyCodec 
是 一 个 比较 好 的 中 间 文 件 压 缩编 /解码 器 ， 因 为 其 很 好 地 结合 了 低 CPU 
开销 和 好 的 压缩 执行 效率 : 


<property> 
<name>mapred.map.output.compression.codec</name> 
<value>org.apache.hadoop.io.compress.SnappyCodec</value> 
<description> This controls whether intermediate files produced by Hive 


between multiple map-reduce jobs are compressed. The compression codec 
and other options are determined from hadoop config variables 
mapred.output.compress* </description> 

</property> 


11.4 最终 输出 结果 压缩 


当 Hive 将 输出 写 入 到 表 中 时 ， 输 出 内 容 同 样 可 以 进行 压缩 。 属 性 
hive.exec. compress.output 控 制 着 这 个 功能 。 用 户 可 能 需要 保持 默认 配 
置 文件 中 的 默认 值 false， 这 样 默认 的 输出 就 是 非 压缩 的 纯 文 本 文件 
了 。 用 户 可 以 通过 在 查询 语句 或 执行 脚本 中 设置 这 个 值 为 tue， 来 开 
启 输出 结果 压缩 功能 : 


<property> 
<name>hive.exec.compress.output</name> 
<value>false</value> 
<description> This controls whether the final outputs of a query 


(to a local/hdfs file or a Hive table) is compressed. The compression 
codec and other options are determined from hadoop config variables 
mapred.output.compress* </description> 

</property> 


对 于 其 他 Hadoop 任务 ， 开 局 最 终 输 出 结果 压缩 功能 的 属性 是 


mapred.output.compress ° 


如 果 属 性 hive.exec.compress.output 的 值 设置 为 tue， 那 么 这 时 需要 
为 其 指定 一 个 编 解码 器 。 对 于 输出 文件 ， 使 用 GZip 进 行 压缩 是 个 不 错 
的 主意 ， 因 为 其 通常 可 以 大 幅度 降低 文件 的 大 小 。 但 是 ， 需 要 记 住 的 
是 GZip 压 缩 的 文件 对 于 后 面 的 MapReduce job 而 言 是 不 可 分 割 的 。 


<property> 
<name>mapred.output.compression.codec</name> 
<value>org.apache.hadoop.io.compress.GzipCodec</value> 


<description>If the job outputs are compressed, how should they be compressed? 
</description> 
</property> 


11.5 sequence file 存 储 格式 


压缩 文件 确实 能 够 节约 存储 空间 ， 但 是 ， 在 Hadoop 中 存储 襟 压缩 
文件 的 一 个 缺点 就 是 ， 通 常 这 些 文件 是 不 可 分 割 的 。 可 分 割 的 文件 可 
以 划分 成 多 个 部 分 ， 由 多 个 mapper 并 行进 行 处 理 。 大 多 数 的 压缩 文件 
古 不 可 分 割 的 ， 也 就 古 说 只 能 从 类 读 到 尾 。 


Hadoop 所 文 持 的 sequence file 存 储 格 式 可 以 将 一 个 文件 划分 成 多 个 
块 ， 然 后 采用 一 种 可 分 割 的 方式 对 块 进行 压缩 。 


如 果 想 在 Hive 中 使 用 sequence file 存 储 格 式 ， 那 么 需要 在 CREATE 
TABLE 语 句 中 通过 STORED AS SEQUENCEFILE 语 句 进 行 指定 : 


CREATE TABLE a_sequence_ file table STORED AS SEQUENCEFILE， 


Sequence file 提 供 了 3 种 压缩 方式 : NONE、RECORD 和 了 BLOCK， 
默认 是 RECORD 级 别 (也 就 是 记录 级 别 ) 。 不 过 ， 通 常 来 说 ，BLOCK 
级 别 (也 束 是 块 级 别 ) 压缩 性 能 最 好 而 且 是 可 以 分 割 的 。 和 很 多 其 他 
的 压缩 属性 一 样 ， 这 个 属性 也 并 非 是 Hive 特 有 的 。 用 户 可 以 在 Hadoop 


的 mapred-site.xml 文 件 中 进行 定义 ， 或 者 在 Hive 的 hive-site.xml 文 件 中 
进行 定义 ， 需 要 的 时 候 ， 还 可 以 在 脚本 中 或 得 询 语 句 前 进行 指定 : 


<property> 
<name>mapred.output.compression.type</name> 
<value>BLOCK</value> 


<description>If the job outputs are to compressed as SequenceFiles, 
how should they be compressed? Should be one of NONE, RECORD or BLOCK. 
</description> 

</property> 


11.6 ”使 用 压缩 实践 


我 们 已 经 介绍 了 Hive 中 可 以 使 用 的 一 些 压缩 相关 的 配置 属性 ， 这 
些 属性 的 不 同 组 合 方式 将 会 产生 不 同 的 输出 。 下 面 ， 让 我 们 在 一 些 例 
子 中 使 用 这 些 属 性 ， 然 后 展示 下 它们 的 输出 将 会 古 什 么 。 需 要 注意 的 
征 ，CLI 中 通过 set 命 令 设置 的 属性 在 同一 个 会 话 中 会 一 直 生 效 的 。 
此 ， 同 一 个 会 话 中 的 不 同 例子 间 应 该 注意 将 设置 复原 ， 或 者 直接 重 开 


启 一 个 Hive 会 话 ; 


hive> SELECT * FROM a; 
4 5 
3 2 


hive> DESCRIBE a; 
a int 
b int 


首先 ， 我 们 先 开启 中 间 数 据 压缩 功能 。 这 将 不 会 影响 到 最 终 输出 
结 采 。 不 过 从 job 的 计数 器 信息 上 看 ， 可 以 发 现 这 个 job 中 间 传 送 的 数 
据 量 变 小 了 ， 因 为 shuffle sort( 温 洗 排序 ) 数 据 被 压缩 了 : 


hive> set hive.exec.compress.intermediate=true; 
hive> CREATE TABLE intermediate_ comp_on 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> AS SELECT * FROM a; 


Moving data to: file:/user/hive/warehouse/intermediate comp_on 
Table default.intermediate comp_on stats: [num_partitions: 0, num_files: 1, 
num_rows: 2, total_ size: 8, raw_data size: 6] 


和 预期 的 一 样 ， 中 间 数 据 压缩 没有 影响 到 最 终 的 输出 ， 最 终 的 数 
据 结 末 仍 然 是 非 讨 缩 的 : 


hive> dfs -ls /user/hive/warehouse/intermediate_ comp_on,; 
Found 1 items 
/user/hive/warehouse/intermediate comp_on/000000_ 0 


hive> dfs -cat /user/hive/warehouse/intermediate comp_on/000000_0; 
4 5 
2 


我 们 同样 可 以 为 中 间 数 据 压缩 配置 其 他 的 编 /解码 絮 而 不 使 用 默认 
的 编 /解码 器 。 下 面 这 个 例子 ， 我 们 选择 使 用 GZip (尽管 通常 Snappy 是 
更 好 的 选择 ) 。 为 显示 清晰 ， 将 下 面 语句 中 的 第 1 行 分 成 了 2 行 : 


hive> set mapred.map.output.compression.codec 
=org.apache.hadoop.io.compress.6GZipCodec; 
hive> set hive.exec.compress.intermediate=true; 


hive> CREATE TABLE intermediate_ comp_on_gz 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> AS SELECT * FROM a; 
Moving data to: file:/user/hive/warehouse/intermediate comp_on_gz 
Table default.intermediate comp_on_ gz stats: 
[num_partitions: 0，num_files: 1, num_rows: 2, total size: 8, raw_data size:6] 


hive> dfs -cat /user/hive/warehouse/intermediate comp_on_gz/000000_0; 


下 一 步 ， 我 们 可 以 开局 输出 结果 压缩 : 


hive> set hive.exec.compress.output=true; 


hive> CREATE TABLE final comp_on 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> AS SELECT * FROM a; 
Moving data to: file:/tmp/hive-edward/hive 2012-01-15 11-11-01 884 .../-ext-10001 
Moving data to: file:/user/hive/warehouse/final comp_on 
Table default.final comp_on stats: 
[num_partitions: 0, num_files: 1, num_rows: 2, total size: 16, raw data size:6] 


hive> dfs -ls /user/hive/warehouse/final comp_on; 
Found 1 items 
/user/hive/warehouse/final_comp_on/000000_0.deflate 


输出 信息 中 的 表 统 计 信 息 显 示 total_size (总 大 小 ) 是 16B， 但 是 
raw_data_size 〈 裸 数据 ) 是 6B， 多 出 的 存储 空间 是 被 deflate 算 法 消耗 
了 。 同 时 我 们 可 以 看 到 ， 输 出 的 文件 后 缀 名 是 .deflate 。 


不 推荐 使 用 cat 命 令 来 查看 这 个 压缩 文件 ， 因 为 用 户 只 能 看 到 二 进 
制 输 出 。 不 过 ，Hive 可 以 正常 地 查询 这 个 数据 : 


hive> dfs -cat /user/hive/warehouse/final comp_on/000000_0.deflate,; 


. UGLYBINARYHERE ... 


hive> SELECT * FROM final comp_on,; 


这 种 无 颖 的 处 理 压缩 文件 的 能 力 并 非 是 Hive 独 有 的 ， 实 际 上 ， 这 
里 是 使 用 了 Hadoop 的 TextInputFormat 进 行 的 处 理 。 尽 管 在 这 种 情况 下 
这 个 命名 有 些 令 人 混 消 ， 但 是 TextInputFormat 可 以 识别 文件 后 绥 名 
为 .deflate 或 .gz 的 压缩 文件 ， 并 且 可 以 很 轻松 地 进行 处 理 。Hive 无 需 : 
心底 层 的 文件 是 否 是 压缩 的 ， 以 及 是 使 用 何 种 压缩 方案 进行 压缩 的 。 


下 面 我 们 改变 下 输出 结果 压缩 所 使 用 的 编 解码 右 ， 然 后 看 下 结果 
(这 里 语句 的 第 2 行为 了 显示 清晰 ， 也 分 成 2 行 了 ) : 


hive> set hive.exec.compress.output=true; 

hive> set mapred.output.compression,.codec 
=org.apache.hadoop.io.compress.GzipCodec; 

hive> CREATE TABLE final comp_on_gz 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> AS SELECT * FROM a; 

Moving data to: file:/user/hive/warehouse/final comp_on_gz 

Table default.final comp_on_gz stats: 

[num_partitions: 0, num_files: 1, num_rows: 2, total size: 28, raw data size:6] 


hive> dfs -ls /user/hive/warehouse/final comp_on_gz; 


Found 1 items 
/user/hive/warehouse/final_comp_on_gz/000000_0.gz 


正如 用 户 可 以 看 到 的 ， 输 出 文件 夹 下 现在 包含 了 零 个 或 多 个 .gz 文 
件 。Hive 提 供 了 在 Hive shell 中 执行 像 zcat 这 样 的 本 地 命令 的 快速 方 
法 。 通 过 ! 符 号 ，Hive 可 以 执行 外 部 的 命令 ， 直 到 返回 结 


zcat 是 一 个 命令 行 实 用 程序 ， 用 来 解压 缩 ， 并 进行 输出 显示 : 


hive> ! /bin/zcat /user/hive/warehouse/final comp_on_gz/000000_0.gz; 
4 5 

3 2 

hive> SELECT * FROM final comp_on_gz; 


OK 

4 5 

3 2 

Time taken: 0.159 seconds 


使 用 这 种 输出 压缩 能 够 完成 那 种 很 小 ， 操 作 起 来 很 快 的 文件 的 二 
进 制 压缩 。 不 过 ， 回 想 一 下 ， 和 输出 文件 的 个 数 是 和 处 理 数据 所 需要 的 


mapper 个 数 或 reducers 个 数 有 天 的 。 在 最 坏 的 情况 下 ， 可 能 最 终结 采 是 
文件 夹 中 只 产生 了 一 个 大 的 压缩 文件 ， 而 且 是 不 可 分 割 的 。 这 意味 着 
后 续 步 又 并 不 能 并 行 地 处 理 这 个 数据 。 解 决 这 个 问题 的 答案 就 是 使 用 


sequence file: 


hive> set mapred.output.compression.type=BLOCK; 
hive> set hive.exec.compress.output=true; 
hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress. GzipCodec,; 


hive> CREATE TABLE final comp_on_gz_sedqd 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> STORED AS SEQUENCEFILE 
> AS SELECT * FROM a; 
Moving data to: file:/user/hive/warehouse/final comp_on_gz_seq 
Table default.final comp_on_gz_seq stats: 
[num_partitions: 0, num_files: 1, num_rows: 2, total size: 199, raw_data size: 6] 


hive> dfs -ls /user/hive/warehouse/final comp_on_gz_seq,; 
Found 1 items 
/user/hive/warehouse/final_comp_on_gz_seq/000000_0 


Sequence file 是 二 进 制 格 式 的 ， 但 是 ， 我 们 可 以 很 容易 地 查询 文件 
头 。 通 过 查看 文件 头 可 以 确认 结果 是 否 是 我 们 需要 的 (为 方便 显示 ， 
输出 格式 进行 了 调整 ) 


hive> dfs -cat /user/hive/warehouse/final comp_on_gz_seq/000000_0; 
SEQ[]org.apache.hadoop.io.Byteswritable[]org.apache.hadoop.io.Byteswritablel[] 
org.apache.hadoop.io.compress.GzipCodec[] 


因为 sequence file 中 从 入 的 元 数据 信息 以 及 Hive 元 数据 信息 ，Hive 
需 任何 特别 的 设置 就 可 以 查询 这 张 表 。Hadoop 同 样 提供 了 dfs -text 
镍 人 file 文 件 中 去 除 掉 文 件 头 和 压缩 ， 然 后 显示 裸 数据 ; 


hive> dfs -text /user/hive/warehouse/final comp_on_gz_seq/000000_0; 
4 5 
3 2 

hive> Select * from final comp_on_gz_seq; 

OK 


最 后 ， 我 们 来 同时 使 用 直接 数据 压缩 和 最 终 输 出 数据 压缩 ， 而 且 
使 用 不 同 压 缩编 /解码 右 的 Sequence 和 设置 通 币 应 用 在 生产 环 
境 ， 这 些 环境 中 的 数据 集 很 大 ， 而 这 些 设置 可 以 提高 其 性 能 : 


hive> set mapred.map.output.compression.codec 
=org.apache.hadoop.io.compress.SnappyCodec; 


hive> set hive.exec.compress.intermediate=true; 
hive> set mapred.output.compression,.type=BLOCK; 
hive> set hive.exec.compress.output=true; 
hive> set mapred.output.compression,.codec 
=org.apache.hadoop.io.compress.GzipCodec,; 


hive> CREATE TABLE final comp_on_gz_int_compress_snappy_seq 


> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
> STORED AS SEQUENCEFILE AS SELECT * FROM a; 


11.7 存档 分 区 


Hadoop 中 有 一 种 存储 格式 名 为 HAR， 也 就 是 Hadoop Archive 
(Hadoop 归 档 文件 ) 的 简写 。 一 个 HAR 文 件 就 像 在 HDFS 文 件 系统 中 
的 一 个 TAR 文件 一 样 是 一 个 单独 的 文件 。 不 过 ， 其 内 部 可 以 存放 多 个 
文件 和 文件 夹 。 在 一 些 使 用 场景 下 ， 较 旧 的 文件 夹 和 文件 比较 新 的 文 
件 夹 和 文件 被 访问 的 概率 要 低 很 多 。 如 果 某 个 特定 的 分 区 下 保存 的 文 
件 有 成 千 上 万 的 话 ， 那 么 束 需 要 HDFS 中 的 NameNode 消 耗 非 1 
价 来 管理 这 些 文件 。 通 过 将 分 区 下 的 文件 归档 成 一 个 巨大 的 ， 但 是 
时 可 以 被 Hive 访 问 的 文件 ， 可 以 减轻 NameNode 的 压力 。 不 过 其 oe 
是 ，HAR 文 件 查询 效率 不 高 ;同时 ，HAR 文 件 并 非 是 压缩 的 ， 因 此 也 
不 会 节约 存储 空间 。 


在 下 面 的 例子 中 ， 我 们 将 使 用 Hive 目 带 的 文件 作为 表 数 据 。 
” 青 先 ， 创建 一 个 分 区 表 ， 然 后 将 Hive 包 中 自 带 的 文件 加 载 到 表 


hive> CREATE TABLE hive text (line STRING) PARTITIONED BY (folder STRING); 


hive> ! ls $HIVE_HOME ; 
LICENSE 

README .七 Xt 
RELEASE_NOTES .七 Xt 


hive> ALTER TABLE hive_text ADD PARTITION (folder='docs'); 


hive> LOAD DATA INPATH '${env:HIVE HOME}/README.txt' 
> INTO TABLE hive_text PARTITION (folder='docs ' ) ; 
Loading data to table default.hive text partition (folder=docs ) 


hive> LOAD DATA INPATH '${env:HIVE_ HOME}/RELEASE_ NOTES.txt'" 
> INTO TABLE hive_ text PARTITION (folder='docs'); 
Loading data to table default.hive text partition (folder=docs) 


hive> SELECT * FROM hive_ text WHERE lJine LIKE '%hive%' LIMIT 2; 
http://hive.apache.org/ docs 
- Hive 0.8.0 ignores the hive-default.xml file, though we continue docs 


某 些 Hadoop 版 本 (例如 Hadoop v0.20.2 版 本 ) 要 求 包 含 Hadoop 归 
档 工具 接口 的 JAR 包 要 放置 在 Hive 的 auxlib 路 径 下 : 


$ mkdir $HIVE_ HOME/auxlib 


$ cp $HADOOP_HOME/hadoop-0.20.2-tools,.jar $HIVE_HOME/auxlib/ 


在 归档 之 前 ， 我 们 来 看 下 这 个 表 下 面 的 底层 目录 结构 。 和 需要 注意 
0 表 下 面 的 数据 是 存储 在 分 区 目 隶 下 的 ， 因 为 这 是 一 个 管理 分 区 


hive> dfs -ls /user/hive/warehouse/hive_ text/folder=docs; 
Found 2 items 
/usSer/hive/warehouse/hive_text/folder=docs/README. txt 
/usSer/hive/warehouse/hive_text/folder=docs/RELEASE_ NOTES.txt 


ALTER TABLE ... ARCHIVE PARTITION 语 句 将 表 转 化 成 了 一 个 
归档 表 : 


hive> SET hive.archive.enabled=true; 

hive> ALTER TABLE hive_ text ARCHIVE PARTITION (folder='docs'); 

intermediate.archived is 
file:/user/hive/warehouse/hive_text/folder=docs_INTERMEDIATE_ARCHIVED 

intermediate.original is 
file:/user/hive/warehouse/hive_text/folder=docs_INTERMEDIATE_ ORIGINAL 

Creating data.har for file:/user/hive/warehouse/hive_text/folder=docs 

in file:/tmp/hive-edward/hive_..._3862901820512961909/-ext-10000/partlevel 

Please wait... (this may take a while) 

Moving file:/tmp/hive-edward/hive_..._3862901820512961909/-ext-10000/partlevel 

to file:/user/hive/warehouse/hive_text/folder=docs_INTERMEDIATE_ARCHIVED 

Moving file:/user/hive/warehouse/hive_ text/folder=docs 

to file:/user/hive/warehouse/hive_text/folder=docs_INTERMEDIATE_ORIGINAL 

Moving file:/user/hive/warehouse/hive_ text/folder=docs_INTERMEDIATE_ARCHIVED 

to file:/user/hive/warehouse/hive_ text/folder=docs 


(对 于 上 面 的 输出 ， 为 便于 展示 ， 我 们 对 其 格式 进行 了 调整 ， 并 
使 用 .…. 替 换 掉 输 出 中 的 时 间 戳 。) 


下 面 这 张 表 中 由 之 前 的 两 个 文件 变 成 了 现在 的 一 个 Hadoop 归 档 文 
件 (也 就 是 HAR 文 件 ) : 


hive> dfs -ls /user/hive/warehouse/hive_ text/folder=docs; 
Found 1 items 


/usSer/hive/warehouse/hive_text/folder=docs/data.har 


ALTER TABLE ... UNARCHIVE PARTITION 命 令 可 以 将 HAR 中 的 
文件 提取 出 来 然后 重新 放置 到 HDFS 中 : 


ALTER TABLE hive text UNARCHIVE _ PARTITION (folder='docs ' )， 
11.8 压缩 ， 包扎 


Hive 可 以 读 和 写 不 同类 型 的 压缩 文件 ， 确 实 可 以 获取 很 大 的 性 能 
提升 ， 因 为 其 可 以 节约 磁 存 储 空间 以 及 处 理 开 销 。 这 种 灵活 性 同样 也 
有 助 于 和 其 他 工具 进行 集成 ， 因 为 Hive 无 需 使 用 Java 编 写 的 目 定义 
的 “适配器 ”就 可 以 查询 很 多 本 地 文件 类 型 。 


[1]See http:/code.google.com/p/hadoop-snappy/). 


[2]See http://wiki.apache.org/hadoop/UsingLzoCompression). 


第 12 章 开发 


Hive 不 可 能 满足 用 户 的 所 有 需求 ， 有 时 一 个 第 三 方 的 库 可 以 填补 
这 个 空白 。 而 其 他 情况 下 ， 用 户 或 其 他 本 身 是 Java 开 发 工程 师 的 人 员 可 
能 需要 开发 一 些 用 户 自 定义 函数 〈 也 就 是 UDF， 参 考 第 13 章 的 介 
绍 ) 、 序 列 化 / 反 序 列 化 器 (也 就 是 SerDe， 参 考 第 15.4 节 “记录 格式 : 
人 (参考 第 15 章 中 的 介绍 ) 或 者 其 他 
一 些 增强 功能 。 


本 章 将 探讨 Hive 目 身 的 源 代 码 ， 其 中 包括 Hive v0.8.0 版 本 中 新 增 的 
开发 工具 包 择 件 (也 就 是 PDK) 。 


12.1 ”修改 Log4J 属 性 


Hive 可 以 通过 $HIVE_HOME/conf 目 录 下 的 2 个 Log4J 配 置 文件 来 配 
置 日 志 。 其 中 hive-log4j.properties 文 件 用 来 控制 CLI 和 其 他 本 地 执行 组 
件 的 日 志 ; 而 hive-exec-log4j.properties 文 件 用 来 控制 MapReduce task 内 
的 日 志 ， 这 个 文件 并 非 必须 在 Hive 安 装 目 孙 下 存在 ， 因 为 Hive JAR 包 
中 已 经 包含 了 默认 属性 值 。 事 实 上 ，conf 目 录 下 的 文件 是 带 有 .template 
文件 扩展 名 的 ， 因 此 默认 是 不 会 被 加 载 的 。 如 条 想 使 用 这 2 个 配置 ， 只 
需要 将 .template 扩 展 名 去 控 ， 然 后 按 需 要 进行 修改 就 可 以 了 : 


$ cp conf/hive-1l0g4j.properties.template conf/hive-1l0g4j.properties 
e ,，,， 


$ ... edit fil 


也 可 以 临时 地 改变 日 志 配 置 而 无 需 找 贝 和 修改 Log4J 文 件 。 在 Hive 
Shell 局 动 时 可 以 通过 hiveconf 参 数 指定 log4.properties 文 件 中 的 任意 属 
性 。 例 如 ， 下 面 的 语句 指定 输出 日 志 为 DEBUG 级 别 ， 而 且 输 出 到 控制 


人 
口 


$ bin/hive -hiveconf hive,.root.]logger=DEBUG,console 
12/03/27 08:46:01 WARN conf.HiveConf: hive-site.xml not found on CLASSPATH 


12/03/27 08:46:01 DEBUG conf.Configuration: java.io.IOException: config() 


12.2 ”连接 Java 调 试 器 到 Hive 


当 开 局 详细 输出 也 无 法 帮助 找到 解决 问题 的 办 法 时 ， 可 以 通过 附 
加 一 个 Java 调 试 右 ， 对 Hive 代 码 进行 单 步 调试 ， 来 找到 问题 所 在 。 


远程 调试 是 Java 提 供 的 一 个 功能 ， 其 可 以 通过 命令 行 对 JVM 指 定 参 
数 后 进行 局 动 。Hive Shell 脚 本 提供 了 一 个 开关 和 控制 台 帮 助 信息 帮助 
用 户 方便 地 设置 这 些 属性 (为 了 便于 页 面 展 示 ， 下 面 输出 信息 中 有 部 
分 信息 省 略 掉 了 ) : 


$ bin/hive --help --debug 
Allows to debug Hive by connecting to it via JDI API 
Usage: hive --debug[:comma-separated parameters list] 


Parameters: 


recursive=<y|n> Should child JVMs also be started in debug mode. Default:y 
port=<port_number> Port on which main JVM listens for debug connection. Defaul... 
mainSuspend=<y|n> Should main JVM wait with execution for the debugger to con... 
childSuspend=<y|n> Should child JVMs wait with execution for the debugger to c... 
swapsSuspend Swaps suspend options between main and child JVMs 


12.3 ”从 源码 编译 Hive 


使 用 Apache 的 Hive 发 行 版 通常 是 个 不 错 的 选择 ， 不 过 用 户 可 能 需 
Sa 
、 分 Oo 


因此 ， 用 户 将 需要 对 Hive 进 行 源码 编译 。 编 译 Hive 的 最 低 要 求 
是 ， 需 要 一 个 较 新 版 本 的 Java JDK、Subversion 和 ANT。Hive 也 包含 了 
一 些 默 认 不 会 进行 编译 的 组 件 ， 例 如 通过 Thrift 生 成 的 一 些 类 。 如 果 期 
望 对 Hive 完 成 重 编 译 ， 那 么 还 需要 安装 好 Thrift 编 译 絮 。 


下 面 的 系列 命令 分 别 是 从 svn 中 下 载 一 份 Hive 发 行 版 代码 ， 然 后 对 
源码 进行 编译 ， 编 译 后 会 在 hive-trunk/build/dist 目 录 下 生成 结果 : 


$ svn co http://svn.apache.org/repos/asf/hive/trunk hive-trunk 
$ cd hive-trunk 
$ ant package 


$ ls build/dist/ 
bin examples LICENSE README.txt scripts 
conf lib NOTICE RELEASE_NOTES. txt 


12.3.1 ”执行 Hive 测 试用 例 


Hive 本 吴 有 一 个 独特 的 内 置 的 测试 框 杂 。Hive 确 实 有 传统 的 JUnit 
测试 用 例 ， 不 过 主要 的 测试 还 是 通过 执行 以 .q 结 尾 的 文件 ， 然 后 将 执行 
结果 和 之 前 的 执行 结果 文件 局 进 行 比 对 来 进行 的 。 在 Hive 源 码 目 示 下 有 
很 多 的 目 示 。 其 中 ， 有 “正面 ”的 测试 ， 也 束 是 结果 应 该 是 正确 的 测 
试 ; 还 有 “反面 ”的 测试 ， 也 就 是 执行 结果 应 该 古 失 败 的 测试 。 


正面 的 测试 是 一 个 符合 语法 规则 的 查询 ， 而 负面 的 测试 是 一 个 不 
符合 语法 规则 的 或 者 竹 试 做 一 些 HiveQL 不 允许 做 的 操作 : 


$ ls -lah ql/src/test/queries/ 
total 76K 


edward edward 4.0K May 28 2011 . 
edward edward 4.0K May 28 2011 .. 


edward edward 20K Feb 21 20:08 clientnegative 

edward edward 36K Mar 8 09:17 clientpositive 

edward edward 4.0K May 28 2011 negative 
drwxrwxr-x. edward edward 4.0K Mar 12 09:25 positive 


可 以 看 一 下 gl/src/test/queries/clientpositive/cast1.g 这 个 文件 。 用 户 需 
要 知道 的 是 ， 在 测试 过 程 中 会 首先 自动 创建 一 张 名 为 src 的 表 。 表 src 具 
有 2 个 字段 ， 也 束 是 INT 类 型 的 字段 key 和 STRING 类 型 的 字段 value 。 
为 Hive 目 前 还 不 文 持 没有 FROM 语 句 的 SELECT 查 询 ， 所 以 对 于 一 些 函 
数 的 测试 有 一 个 技巧 ， 那 束 是 通过 “人 硬 编码 ”函数 的 输入 进行 测试 ， 而 
无 需 真正 访问 表 中 的 数据 。 


正如 用 户 在 下 面 的 例子 中 所 看 到 的 ， 在 SELECT 语句 中 ，src 表 中 的 
数据 永远 没有 使 用 到 |: 


hive> CREATE TABLE dest1(c1 INT, c2 DOUBLE, c3 DOUBLE, 
> c4 DOUBLE, cS5 INT, c6 STRING, c7 INT) STORED AS TEXTFILE; 


hive> EXPLAIN 
> FROM src INSERT OVERWRITE TABLE dest1 
> SELECT 3 + 2, 3.0 + 2, 3+ 2.0, 3.0 + 2.0, 
> 3 + CAST(2.0 AS INT) + CAST(CAST(© AS SMALLINT) AS INT), 


> CAST(1 AS BOOLEAN), CAST(TRUE AS INT) WHERE src.key = 86; 


hive> FROM src INSERT OVERWRITE TABLE dest1 
> SELECT 3 + 2, 3.0 + 2, 3 + 2.0, 3.0 + 2.0, 
> 3 + CAST(2.0 AS INT) + CAST(CAST(9 AS SMALLINT) AS INT), 
> CAST(1 AS BOOLEAN), CAST(TRUE AS INT) WHERE src,key = 86; 


hive> SELECT dest1.* FROM dest1， 


上 面 这 个 脚本 的 输出 可 以 在 
ql/src/test/results/clientpositive/cast1.q.out 这 个 文件 中 找到 。 这 个 输出 结 


果 文 件 太 大 了 ， 如 果 这 里 展示 完整 的 结果 的 话 ， 就 太 浪费 纸张 了 。 不 
过 ， 增 加 这 个 文件 也 没有 价值 。 


如 下 命令 展示 的 是 Hive 客 户 闪 分 别 执行 一 个 正面 的 测试 用 例 和 一 
个 负面 的 测试 用 例 : 


ant test -Dtestcase=TestCliDriver -Dqfile=mapreducel1.q 


ant test -Dtestcase=TestNegativeCliDriver -Dgqfile=script_broken_pipel1.q 


上 面 两 个 测试 仅仅 是 解析 了 查询 语句 ， 它 们 实际 上 并 没有 在 客户 
端 执 行 。 现 在 它们 已 经 被 启用 了 ， 而 推荐 使 用 clientpositive 和 
clientnegative 来 区 分 了 。 


用 户 同 样 可 以 在 一 次 ant 调 用 过 程 中 执行 多 个 测试 脚本 ， 这 样 可 以 
节约 时 间 〈 注 意 下 面 -Dqfile=.… 后 面 的 字符 串 是 一 个 完整 的 字符 串 ， 展 
示 在 多 行 是 为 了 便于 排版 ) : 


ant test -Dtestcase=TestCliDriver -Ddqfile=avro_change_schema,.dq,avro_ joins.q, 
avro_schema_error_message.q,avro_evolved_schemas.q,avro_sanity_test.q, 


avro_schema_literal.q 


12.3.2 ”执行 hook 


” ”前 管 hook 和 后 车 hook 是 允许 用 户 进 行 hook 编 码 ， 然 后 在 Hive 中 进 
行 编译 并 执行 自 定义 代码 的 实用 工具 。Hive 的 测试 框架 就 使 用 了 hook 
来 执行 不 会 产生 输出 的 命令 ， 因 此 结果 只 会 在 测试 内 部 出 现 : 

PREHOOK: query: CREATE TABLE dest1(c1 INT, c2 DOUBLE, c3 DOUBLE, 


c4 DOUBLE, c5 INT, c6 STRING, c7 INT) STORED AS TEXTFILE 
PREHOOK: type: CREATETABLE 


POSTHOOK: query: CREATE TABLE dest1(c1 INT, c2 DOUBLE, c3 DOUBLE, 
c4 DOUBLE, c5 INT, c6 STRING, c7 INT) STORED AS TEXTFILE 


12.4 配置 Hive 和 Eclipse 


Eclipse 是 一 个 开源 的 IDE (集成 开发 环境 ) 。 通 过 如 下 操作 可 以 让 
Hive 代 码 在 Eclipse 中 使 用 : 


$ ant clean package eclipse-files 
$ cd metastore 
$ ant model-jar 


$ ant gen-test 
一 旦 编译 后 ， 用 户 就 可 以 将 工程 导入 到 Eclipse 中 ， 然 后 按 通 常 使 
用 的 方式 使 用 就 可 以 了 。 


按 常规 方式 ， 首 先 在 Eclipse 中 创建 一 个 工作 空间 (workspace) ， 
然后 使 用 File (文件 ) -Import (导入 ) 命令 ， 再 选择 General (常规 ) 
> Existing Projects into Workspace( 导 入 已 经 存在 的 工程 到 工作 空间 
中 )， 最 后 选择 Hive 源 码 所 在 的 目录 即 可 。 

当 出 现 向 导 中 列举 的 系列 工程 名 称 时 ， 应 该 可 以 看 到 其 中 有 一 个 
是 名 为 hive-trunk 的 工程 ， 用 户 只 需要 选择 这 个 工程 然后 按 Finish 〈 完 
成 ) 就 可 以 了 。 

图 12-1 展 示 了 如 何在 Eclipse 中 启动 Hive 命 令 行 CLI 驱 动 器 。 
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图 12-1 在 Eclipse 中 启动 Hive 命 令 行 CLI 驱 动 器 


12.5 ”Maven 工 程 中 使 用 Hive 
用 户 可 以 在 Maven 编 译 中 设置 Hive 为 依赖 包 。Maven 资 源 库 


http://mvnrepository.com/artifact/org.apache.hive/hive-service 中 包含 了 最 


新 的 发 行 版 。 
这 个 页 面 里 同样 列 出 了 hive-service 所 需要 的 依赖 包 。 


下 面 是 Hive v0.9.0 版 本 的 顶级 依赖 天 系 定 义 ， 这 里 没有 包含 与 之 相 
天 的 依赖 树 ， 因 为 实在 太 多 了 : 


<dependency> 
<groupId>org.apache.hive</groupId> 


<artifactId>hive-service</artifactId> 
<version>0.9.0</version> 
</dependency> 


为 我 们 后 面 将 讲 到 的 hive_test 准 备 的 pom.xml 文 件 包含 了 Hive 
v0.9.0 版 本 完整 的 依赖 树 天 系 。 用 户 可 以 通过 如 下 链接 查看 这 个 文件 : 


https://github.com/edwardcapriolo/hive_test/blob/master/pom.xml ° 


12.6 ”Hive 中 使 用 hive_ test 进行 单元 测试 


还 有 一 种 使 用 Hive 的 方式 就 是 利用 Thrift 通 过 HiveService 来 访问 
Hive， 然 后 写 一 些 应 用 。 不 过 ， 因 为 Hive 需 要 众多 的 JAR 依 赖 以 及 元 数 
据 模 块 ，Thrift 服 务 通 党 难以 在 租 入 式 的 环境 中 使 用 。 


hive_test 从 Maven 中 获取 到 所 有 的 Hive 依 赖 ， 并 且 在 本 地 建立 起 元 
数据 和 Thrift 服 务 ， 然 后 提供 测试 类 来 让 单元 测试 更 加 人 简单 。 同 时 ， 
为 其 是 非常 轻 量 级 的 ， 所 以 单元 测试 执行 得 很 快 。 当 然 ， 这 是 相对 于 
在 Hive 中 通过 test 模 块 进行 测试 而 言 的 ， 因 为 后 者 需要 重 编译 整个 工 
程 ， 然 后 才能 执行 某 个 单元 测试 。 


hive test 是 测试 如 UDF、 输 入 格式 、SerDe 或 其 他 作为 HiveQL 语 言 
插件 的 模块 代码 的 理想 方式 。 不 过 这 个 无 助 于 内 部 的 Hive 开 发 ， 因 为 
所 有 的 Hive 组 件 都 是 从 Maven 中 拖 下 来 的 ， 而 且 都 是 属于 工程 之 外 的 。 


在 Maven 工 程 中 ， 创 建 一 个 pom.xml 文 件 ， 然 后 按 如 下 的 方式 将 
hive_test 作 为 依赖 项 加 入 : 


<dependency> 
<groupId>com.jointhegrid</groupId> 
<artifactId>hive_ test</artifactId> 


<version>3.0.1-SNAPSHOT</version> 
</dependency> 


然后 创建 一 个 hive-site.xml 文 件 : 


$ cp $HIVE_ HOME/conf/* src/test/resources/ 
$ vi src/test/resources/hive-site.xml 


和 常规 的 hive-site.xml 文 件 不 同 的 是 ， 这 个 版 本 的 配置 文件 不 应 该 
保存 任何 数据 到 一 个 永久 的 地 方 。 这 是 因为 单元 测试 并 不 应 该 创建 或 
保存 任何 永久 的 状态 。 将 javax.jdo.option.ConnectionURL 这 个 属性 设置 
为 使 用 Derby 作 为 数据 库 ， 这 样 就 只 会 将 数据 库 保 存在 主 内 存 中 。 数 据 
仓库 目录 hive .metastore.warehouse.dir 设 置 为 /tmp 下 的 某 个 目 永 ， 这 样 每 
次 执行 的 单元 测试 都 会 被 删除 挥 : 


<configuration> 


<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value>jdbc:derby:memory:metastore_db;create=true</value> 
<description>JDBC connect string for a JDBC metastore</description> 
</property> 


<property> 

<name>hive.metastore.warehouse.dir</name> 

<value>/tmp/warehouse</value> 

<description>location of default database for the warehouse</description> 
</property> 


</configuration> 


hive_test 提 供 了 个 扩展 了 JUnit 测 试用 例 的 类 。HiveTestService 会 
先 初 始 化 好 环境 ， 空 数据 仓 合 库 有 目录， 然后 会 在 进程 中 启动 元 数据 服 
务 和 HiveService。 其 其 通 ? 带 是 扩展 测试 的 组 件 。 不 过 ， 其 他 组 件 (例如 
HiveTestEmbedded) 同样 是 可 使 用 的 : 


package com.jointhegrid.hive_ test,; 
import java.io.Bufferedwriter; 
import java.io.IOException; 

import java.io.OutputStreamwriter,; 


import org.apache.hadoop.fs.FSDataOutputStream; 
import org.apache.hadoop.fs.Path; 


/* Extending HiveTestService creates and initializes 
the metastore and thrift service in an embedded mode */ 
public class ServiceHiveTest extends HiveTestService { 


public ServiceHiveTest() throws IOException f{ 
super(); 


public void testExecute() throws Exception { 


/* Use the Hadoop filesystem API to create a 

data file */ 

Path p = new Path(this.ROOT_DIR, "afile"); 

FSDataOutputStream 0 = this.getFileSystem().create(p); 
Bufferedwriter bw = new Bufferedwriter(new OutputStreamwriter(o)); 
bw.write("1\n"); 


bw.write("2\n"); 
bw.close( ); 


/* ServiceHive is a component that connections 
to an embedded or network HiveService based 

on the constructor used */ 

ServiceHive sh = new ServiceHive(); 


/* We can now interact through the HiveService 
and assert on results */ 
sh.client.execute("create table atest (num int)"); 
sh.client.execute("load data local inpath '" 

+ p.tostring() + "' into table atest"); 
sh.client.execute("select count(1) as cnt from atest"); 
String row = sh.client.fetchone(); 
assertEquals("2", row); 
sh.client.execute("drop table atest"),; 


12.7 新 增 的 插件 开发 工具 箱 (PDK) 


Hive v0.8.0 版 本 中 新 加 入 了 一 个 插件 开发 工具 箱 (PDK) 。PDK 的 
目的 是 允许 开发 者 可 以 无 需 Hive 源 码 ， 而 仪 仅 需 要 二 进 制 代 码 即 可 编 
译 和 测试 插件 。 


PDK 相 对 较 新 ， 而 且 其 本 号 因为 有 一 些 环 手 的 pug， 所 以 比较 难 
用 。 如 果 不 管 怎样 想 党 试 使 用 PDK 的 话 ， 那 么 可 以 参考 如 下 的 wiki 页 
面 : https://cwiki.apache. html。 不 过 要 注意 这 
个 页 面 中 也 有 一 些 错误 ， 至 少 在 写本 书 时 还 是 存在 一 些 错误 的 。 


[也 就 是 说 ， 它 们 更 像 是 功能 或 可 用 性 测试 。 


第 13 章 ”函数 


用 户 自 定义 函数 (UDF) 是 一 个 允许 用 户 扩展 HiveQL 的 强大 的 功 
能 。 正 如 我 们 将 看 到 的 ， 用 户 使 用 Java 进 行 编码 。 一 旦 将 用 户 自 定义 
函数 加 入 到 用 户 会 话 中 (交互 式 的 或 者 通过 脚本 执行 的 ) ， 它 们 就 将 
和 内 置 的 函数 一 样 使 用 ， 甚 至 可 以 提供 联机 帮助。Hive 具 有 多 种 类 型 
和 
过 程 。 


在 ETL 处 理 中 ， 一 个 处 理 过 程 可 能 包含 多 个 处 理 步 又。Hive 语 言 
具有 多 种 方式 来 将 上 一 步骤 的 输入 通过 管道 传递 给 下 一 个 步骤 ， 然 后 
在 一 个 查询 中 产生 众多 输出 。 用 户 同样 可 以 针对 一 些 特定 的 处 理 过 程 
编写 自 定义 范 数 。 如 果 没 有 这 个 功能 ， 那 么 一 个 处 理 过 程 可 能 就 需要 
包含 一 个 MapReduce 步 骤 或 者 需要 将 数据 转移 到 另 一 个 系统 中 来 实现 
这 些 改变 。 互 联系 统 增加 了 复杂 性 ， 并 且 增 加 了 配置 错误 或 其 他 错误 
的 发 生 几 率 。 当 数据 量 是 GB 甚 至 TB 级 别 时 ， 在 不 同系 统 中 转移 数 
据 ， 需 要 消耗 大 量 的 时 间 。 与 此 相反 ，UDF 是 在 Hive 查 询 产生 的 相同 
的 task 进 程 中 执行 的 ， 因 此 它们 可 以 高 效 地 执行 ， 而 且 其 消除 了 和 其 
0 


13.1 ”发 现 和 描述 函数 


在 编写 目 定 义 UDF 之 前 ， 我 们 先 来 熟悉 下 Hive 中 目 市 的 那些 
UDF。 和 需要 注意 的 是 在 Hive 中 通常 使 用 “UDF” 来 表示 任意 的 范 数 ， 包 
括 用 户 目 定 义 的 或 者 内 置 的 。 


SHOW FUNCTIONS 命令 可 以 列举 出 当前 Hive 会 话 中 所 加 载 的 所 
有 画 数 名 称 ， 其 中 包括 内 置 的 和 用 户 加 载 进 来 的 函数 ， 加 载 方式 稍 后 


ei 


hive> SHOW FUNCTIONS ; 


array_contains 


函数 通 利 都 有 其 目 喘 的 使 用 文档 。 使 用 DESCRIBE FUNCTION 命 
令 可 以 展示 对 应 函数 简短 的 介绍 


hive> DESCRIBE FUNCTION concat 


concat(stri, str2, ... StrN) - returns the concatenation of stri1, str2, 
函数 也 可 能 包含 更 多 的 详细 文档 ， 可 以 通过 增加 EXTENDED 关 键 
行 查 看 : 


hive> DESCRIBE FUNCTION EXTENDED concat,; 
concat(stri, str2, ... StrN) - returns the concatenation of stri, str2, ... 
Returns NULL if any argument is NULL. 


Example: 
> SELECT concat('abc', 'def') FROM src LIMIT 1; 
"abcdef ' 


13.2 ”调用 函数 


如 有 果 想 使 用 函数 ， 只 需要 在 查询 中 通过 调用 函数 名 ， 并 传 入 需要 
的 参数 即 可 。 a 定 特定 的 参数 个 数 和 参数 类 型 ， 而 其 他 
瑟 数 可 以 传 入 一 组 参数 ， 参 数 类 型 可 以 是 多 样 的 。 和 关键 字 一 样 ， 画 
数 名 也 是 保留 的 字符 昌 


SELECT concat(columni1,column2) AS x FROM table， 
不 准 贺 
13.3 从 


用 户 自 定义 函数 (英文 缩写 为 UDF) 这 个 术语 在 狭义 的 概念 上 还 
表示 以 一 行 数据 中 的 一 列 或 多 列 数 据 作为 参 数 然后 汉 回 结果 是 一 个 值 
的 函数 。 大 多 数 函 数 都 是 属于 这 类 的 。 


我 们 使 用 的 例子 中 包含 了 很 多 的 数学 函数 。 例 如 round0 和 
floor0， 其 可 以 将 DOUBLE 类 型 转换 为 BIGINT 类 型 ， 还 有 abs()， 
函数 可 以 返回 数值 的 绝对 值 。 


其 他 一 些 例子 中 还 包含 有 字符 串 操 作 函 数 。 例 如 ucase0， 这 个 画 
数 可 以 将 字符 种 转换 成 全 是 大 写字 母 的 ， reverse0 国 数 ， 可 以 将 字符 


人 
出 吓 。 


需要 注意 的 征 ， 这 些 UDF 同 样 可 以 返回 一 个 复杂 的 对 象 ， 例 如 
arTray、 map 或 者 struct ° 


13.4” 迹 合 事 数 


男 一 种 芳 数 是 聚合 钞 数 。 所 有 的 率 合 贸 数 、 用 户 目 定义 钞 数 和 内 
置 画 数 ， 都 统称 为 用 户 自 定义 聚合 画 数 (UDAF) 


案 合 函数 接受 从 零 行 到 多 行 的 零 个 到 多 个 列 ， 然 后 返回 单一 值 。 
这 样 的 例子 包括 数学 范 数 sum()， 其 返回 所 有 输入 求 和 后 的 值 ，avg0 函 
数 会 计算 所 有 输入 的 值 的 平均 值 ，min() 和 max() 范 数 ， 可 以 分 别 返 回 
输入 值 中 的 最 小 值 和 最 大 值 : 


hive> SELECT avg(price_close) 


> FROM stocks 
> WHERE exchange = 'NASDAQ' AND Symbol = 'AAPL ' 


聚合 方法 通常 和 GROUP BY 语句 组 合 使 用 。 下 面 这 个 例子 我 们 在 
第 6.3 节 “GROUP BY 语句 ”中 使 用 过 : 


hive> SELECT year(ymd), avg(price close) FROM stocks 
> WHERE exchange = 'NASDAQ' AND Symbol = 'AAPL' 
> GROUP BY year(ymd); 

1984 25.578625440597534 


1985 20.193676221040867 
1986 32.46102808021274 


第 6 章 中 的 表 6-3 中 列举 了 可 以 在 HiveQL 中 使 用 的 所 有 内 置 察 合 芳 


数 。 
13.5“” 表 生 成 函数 
Hive 所 支持 的 第 3 类 画 数 就 是 表 生 成 画 数 。 和 其 他 画 数 类 别 一 样 ， 


所 有 的 表 生 成 函数 ， 包 括 用 户 自 定义 的 和 内 置 的 ， 都 统称 为 用 户 自 定 
义 表 生成 函数 (UDTF) 。 


表 生 成 函数 接受 零 个 或 多 个 输入 ， 然 后 产生 多 列 或 多 行 输出 。 例 
如 ，array 芳 数 就 是 将 一 列 输入 转换 成 一 个 数组 输出 的 。 下 面 的 查询 语 
句 中 使 用 了 array 了 汞 数 : 


hive> SELECT array(1,2,3) FROM dual; 
[1,2,3] 


” ”explode( 〇 图 数 以 array 类 型 数据 作为 输入 ， 然 后 对 数组 中 的 数据 进 
行 大 代 ， 返 回 多 行 结果 ， 一 行 一 个 数组 元 素 值 。 


hive> SELECT explode(array(1,2,3)) AS element FROM src; 
1 
2 
3 


不 过 ，Hive 只 允许 表 生 成 图 数 以 特定 的 方式 使 用 。 例 如 ， 一 个 显 
著 的 限制 惑 是 ， 我 们 无 法 从 表 中 产生 其 他 的 列 。 例 13-1 所 示 的 这 个 碍 
询 可 能 是 前 面 我 们 对 于 employees 表 进行 的 操作 。 我 们 可 能 需要 列举 出 
每 名 雇员 的 下 属 员工 : 


例 13-1 explode 函 数 的 错误 使 用 方式 : 


hive> SELECT name, explode(subordinates) FROM employees,; 


FAILED: Error in semantic analysis: UDTF's are not supported outside 
the SELECT clause, nor nested in expressions 


不 过 ，Hive 提 供 了 一 个 LATERAL VIEW 功 能 来 实现 这 种 查询 : 


hive> SELECT name, sub 
> FROM employees 
> LATERAL VIEW explode(subordinates) subView AS sub,; 


John Doe Mary Smith 
John Doe Todd Jones 
Mary Smith Bill King 


需要 注意 的 是 ， 对 于 职位 不 是 经 理 的 雇员 ( 即 没 有 下 属 员工 的 
人 ) 来 说 是 没有 输出 行 的 ， 例如 Bl King 和 Todd Jones 就 不 会 有 对 应 的 
输出 行 。 因 此 ， 输 出 中 将 会 产生 和 零 到 多 行 独 纪 录 。 


通过 LATERAL VIEW 可 以 方便 地 将 explode 这 个 UDTF 得 到 的 行 转 
列 的 结果 集合 在 一 起 提供 服务 。 使 用 LATERAL VIEW 需要 指定 视图 别 
名 和 生成 的 新 列 的 别名 ， 对 于 本 例 ， 其 分 别 是 subView 和 sub 。 


第 6 章 中 的 表 6-4 中 列举 了 所 有 的 内 置 的 表 生 成 行 数 。 


13.6 一 个 通过 日 期 计算 其 星座 的 UDF 


下 面 我 们 开始 编写 自己 的 UDF。 假 设 我 们 有 一 张 表 ， 表 中 的 一 个 
字段 存储 的 是 每 个 用 户 的 生日 。 通 过 这 个 信息 ， 我 们 期 望 能 够 计算 出 
每 个 人 所 属 的 星座 。 


下 面 是 一 个 样本 数据 集 ， 我 们 将 其 放 到 用 户 根 目 孙 下 一 个 名 为 
littlebigdata.txt 的 文件 中 : 


edward capriolo,edward@media6degrees.com,2-12-1981, 209.191.139.200,M,10 


bob, bob@test .net, 10-10-2004, 10.10.10.1,M,50 
sara connor,sara@sky.net,4-5-1974,64.64.5.1,F,2 


将 样本 数据 载 入 到 名 为 littlebigdata 的 表 中 : 


> CREATE TABLE IF NOT EXISTS littlebigdata( 
STRING ， 
STRING ， 
STRING ， 
STRING ， 
STRING ， 
INT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


hive> LOAD DATA LOCAL INPATH '${env:HOME}/littlebigdata.txt' 
> INTO TABLE littlebigdata; 


函数 的 输入 将 是 一 个 日 期 ， 而 函数 输出 将 是 表示 该 用 户 星座 的 字 


下 面 是 我 们 期 望 的 这 个 UDF 的 Java 实 现 : 


package org.apache,.hadoop,.hive.contrib.udf.examp1le， 


import java.util.Date， 
import java.text.SimpleDateFormat,; 
import org.apache.hadoop.hive.ql.exec.UDF,; 


@Description(name = "zodiac", 
value = "_FUNC_(date) - from the input date string "+ 
"or Separate month and day arguments, returns the sign of the Zodiac.", 
extended = "Example: \n" 


+ " > SELECT _FUNC_(date_ string) FROM src;\n" 
+ " > SELECT _FUNC_(month, day) FROM src;") 


public class UDFZodiacSign extends UDF{ 
private SimpleDateFormat df; 


public UDFZodiacSign(){ 
df = new SimpleDateFormat("MM-dd-yyyy"); 
} 


public String evaluate( Date bday ){ 
return this.evaluate( bday.getMonth(), bday.getDay() ); 


} 


public String evaluate(String bday)t{ 
Date date = null; 
try { 
date = df.parse(bday); 
} catch (Exception ex) { 
return null; 
} 
return this.evaluate( date.getMonth()+1, date.getDay() ); 
} 


public String evaluate( Integer month, Integer day ){ 
if (month==1) { 
if (day < 20 ){ 
return "Capricorn"; 
} else { 
return "Aquarius"; 


} 
if (month==2){ 
if (day < 19 ){ 
return "Aquarius"; 
} else { 
return "Pisces"; 
} 
} 
/* ...0ther months here */ 
return null; 
} 
} 


( 译 者 注 : 这 段 代 码 有 2 个 很 明显 的 错误 ， 其 一 ，bday.getMonth 的 
返回 值 范围 是 0~11， 其 中 值 0 表示 一 月 份 ， 因 此 这 里 面 正 确 的 写法 应 
该 是 bday. getMonth+1， 其 二 bday.getDay() 返 回 的 是 一 周 中 的 第 几 天 ， 

显然 不 对 ， 这 里 应 该 使 用 bday.getDate() 返 回 月 中 的 天 数 。) 


编写 一 个 UDF， 需 要 继承 UDF 类 并 实现 evaluate() 函 数 。 在 查询 执 
0 查询 中 对 应 的 每 个 应 用 到 这 个 函数 的 地 方 都 会 对 这 个 类 进 
行 实例 化 。 对 于 每 行 输 入 都 会 调用 到 evaluate() 玉 数 。 而 evaluate() 处 理 


后 的 值 会 返回 给 Hive。 同 时 用 户 是 可 以 重 载 evaluate 方 法 的 。Hive 会 像 
Java 的 方法 重 载 一 样 ， 目 动 选 择 匹 配 的 方法 。 


代码 中 的 @Description(..) 表 示 的 是 Java 总 的 注解 ， 是 可 选 的 。 注 
解 中 注 明 了 关于 这 个 函数 的 文档 说 明 ， 用 户 需 要 通过 这 个 注解 来 阐明 
上 自 定义 的 UDF 的 使 用 方法 和 例子 。 这 样 当 用 户 通 过 DESCRIBE 
FUNCTION .… 命 令 查 看 该 函数 时 ， 注 解 中 的 FUNC 字 符 串 将 会 被 替换 
六 用 户 为 这 个 函数 定义 的 “临时 ”函数 名 称 ， 定 义 方式 下 面 会 进行 介 


SE 


4 
三 证 本 一 一 一 
&! 
DO mA mh 
心 ”提示 


UDF 中 evaluate(0) 函 数 的 参数 和 返回 值 类 型 只 能 是 Hive 可 以 序 
列 化 的 数据 类 型 。 例 如 ， 如 果 用 户 处 理 的 全 是 数值 ， 那 么 UDF 的 
输出 参数 类 型 可 以 是 基本 数据 类 型 int、Integer 封 装 的 对 象 或 者 是 
一 个 IntWritable 对 象 ， 也 就 是 Hadoop 对 整 型 封装 后 的 对 象 。 用 户 
不 需要 特别 地 关心 将 调用 到 哪个 类 型 ， 因 为 当 类 型 不 一 致 的 时 
候 ，Hive 会 自动 将 类 型 转换 成 匹配 的 类 型 。 需 要 记 住 的 是 ，null 在 
Hive 中 对 于 任何 数据 类 型 都 是 合法 的 ， 但 是 对 于 Java 基 本 数据 类 
型 ， 不 能 是 对 象 ， 也 不 能 是 null 。 


如 果 想 在 Hive 中 使 用 UDF， 那 么 需要 将 Java 人 代码 进行 编译 ， 然 后 
将 编译 后 的 UDEF 二 进 制 类 文件 打包 成 一 个 JAR 文 件 。 然 后 ， 在 Hive 会 
话 中 ， 将 这 个 JAR 文 件 加 入 到 类 路 径 下 ， 再 通过 CREATE FUNCTION 
语句 定义 好 使 用 这 个 Java 类 的 函数 : 


hive> ADD JAR /full/path/to/zodiac.jar,; 
hive> CREATE TEMPORARY FUNCTION zodiac 


> AS 'org.apache.hadoop.hive.contrib.udf.example.UDFZodiacSign'; 


需要 注意 的 是 ，JAR 文 件 路 径 古 不 需要 用 引号 括 起 来 的 ， 同 时 ， 


到 目前 为 止 这 个 路 径 需要 是 当前 文件 系统 的 全 路 径 。Hive 不 仅仅 将 这 
个 JAR 文 件 加 入 到 classpath 下 ， 同 时 还 将 其 加 入 到 了 分 布 式 缓存 中 ， 这 
样 整个 集群 的 机 器 都 是 可 以 获得 该 JAR 文 件 的 。 


现在 这 个 判断 星座 的 UDF 可 以 像 其 他 的 函数 一 样 使 用 了 。 需 要 注 
意 下 CREATE FUNCTION 语 句 中 的 TEMPORARY 这 个 关键 字 。 当 前 会 


话 中 声明 的 函数 只 会 在 当前 会 话 中 有 效 。 因 此 用 户 需 要 在 每 个 会 话 中 
都 增加 JAR 然 后 创建 画 数 。 不 过 ， 如 采用 户 需 要 频 蚂 地 使 用 同一 个 
ne 那么 可 以 将 相关 语句 增加 到 $HOME/hiverc 文 件 


hive> DESCRIBE FUNCTION zodiac; 
zodiac(date) - from the :input date string or separate month and day 
arguments, returns the sign of the Zodiac. 


hive> DESCRIBE FUNCTION EXTENDED zodiac,; 
zodiac(date) - from the input date string or separate month and day 
arguments, returns the sign of the Zodiac. 
Example: 
> SELECT zodiac(date_ string) FROM src; 
> SELECT zodiac(month, day) FROM src; 


hive> SELECT name, bday, zodiac(bday) FROM littlebigdata; 
edward capriolo 2-12-1981 Aquarius 

bob 10-10-2004 Libra 

sara connor 4-5-1974 Aries 


再 次 说 明 下 ，UDF 人 允许 用 户 在 Hive 语 言 中 执行 自 定 义 的 转换 过 
程 。 通 过 上 面 那 个 UDF，Hive 现 在 可 以 通过 用 户 生日 计算 得 到 相应 的 
星座 名 称 了 ， 当 然 也 可 以 做 其 他 的 聚合 和 转换 过 程 。 


当 我 们 使 用 完 目 定义 UDF 后 ， 我 们 可 以 通过 如 下 命令 删除 此 画 


米 
数 
hive> DROP TEMPORARY FUNCTION IF EXISTS zodiac; 


像 通常 一 样 ，IF EXISTS 是 可 选 的 。 如 果 增 加 此 关键 字 ， 则 即使 玉 
数 不 存 在 也 不 会 报错 。 


13.7 UDF 与 GenericUDF 


前 面 介绍 的 那个 计算 星座 的 UDF 例 子 中 ， 我 们 继承 的 是 UDF 类 。 
Hive 还 提供 了 一 个 对 应 的 称 为 GenericUDF 的 类 。GenericUDF 是 更 为 复 
林 的 抽象 概念 ， 但 是 其 支持 更 好 的 null 值 处 理 同 时 可 以 处 理 一 些 标准 
的 UDF 无 法 支持 的 编程 操作 。GenericUDF 的 一 个 例子 就 是 Hive 中 的 
CASE ... WHEN 语 句 ， 其 会 根据 语句 中 输入 的 参数 而 产生 复杂 的 处 理 
逻辑 。 下 面 我 们 将 展示 如 何 通 过 继承 GenericUDF 类 来 编写 一 个 用 户 自 


定义 函数 ， 我 们 称 之 为 nv10， 这 个 函数 传 入 的 值 如 果 征 null， 那 么 融会 
返回 一 个 默认 值 。 


函数 nv10 要 求 有 2 个 参数 。 如 采 第 1 个 参数 是 非 null 值 ， 那 么 台 会 返 
回 这 个 值 ， 如 果 第 1 个 参数 是 null， 那 么 将 返回 第 2 参数 的 值 。 
GenericUDF 框 架 正 适合 处 理 这 类 问题 。 通 过 继承 标准 的 UDF 确 实 是 一 
个 解决 方案 ， 不 过 那样 就 需要 针对 如 此 多 的 输入 类 型 重 载 众多 的 
evaluate 方 法 ， 这 样 显 得 非常 麻烦 。 而 GenericUDEF 将 会 以 编程 的 方式 检 
查 输入 的 数据 类 型 ， 然 后 做 出 合适 的 反馈 。 


我 们 以 普通 import 语 句 的 细 目 列表 开始 这 个 代码 : 


package org.apache.hadoop.hive.ql.udf.generic; 


org.apache.hadoop.hive.ql.exec.Description; 
org.apache.hadoop.hive.ql.exec.UDFArgumentException; 
org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException; 
org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException,; 
org.apache.hadoop.hive.ql.metadata.HiveException; 
org.apache.hadoop.hive.ql.udf.generic.GenericUDF; 
org.apache.hadoop.hive.ql.udf .generic.GenericUDFUtils; 
org.apache.hadoop.hive.serde2.0objectinspector.O0bjectInspector; 


@Description(name = "nvil", 

value = "_FUNC_(value,default value) - Returns default value if value" 
+" is null else returns value", 

extended = "Example: \n" 

+ " > SELECT _FUNC_(null,'bla') FROM src LIMIT 1;\n") 


现在 需要 这 个 类 继承 GenericUDF， 然 后 开发 这 个 类 通 津 需要 实现 
的 方法 。 


其 中 initialize0) 方 法 会 被 输入 的 每 个 参数 调用 ， 并 最 终 传 入 到 一 个 
ObjectInspector 对 象 中 。 这 个 方法 的 目标 是 确定 参数 的 返回 类 型 。 如 果 
传 入 方法 的 类 型 是 不 合法 的 ， 这 时 用 户 同 样 可 以 同 控 制 台 抛 出 一 个 
Exception 异 常 信息 。returnOIResolver 是 一 个 内 置 的 类 ， 其 通过 获取 非 
null 值 的 变量 的 类 型 并 使 用 这 个 数据 类 型 来 确定 返回 值 类 型 : 


public class GenericUDFNV1 extends GenericUDF { 
private GenericUDFUtils,.ReturnobjectInspectorResolver returnOIResolver; 
private ObjectInspector[] argumentOIS ; 


@Override 


public ObjectInspector initialize(ObjectInspector[] arguments ) 
throws UDFArgumentException { 
argumentOIs = arguments ; 
if (arguments.length != 2) { 
throw new UDFArgumentLengthException( 
"The operator 'NVL' accepts 2 arguments."); 
} 
returnOIResolver = new GenericUDFUtils.ReturnOobjectIinspector Resolver(true); 
if (!(returnOoIResolver.update(arguments[0]) && returnOoIResolver 
‘Update(arguments[1]))) { 
throw new UDFArgumentTypeException(2, 
"The 1st and 2nd args of function NLV should have the same type, " 
+ "but they are different: \"" + arguments[0].getTypeName() 
+ "\" and \"" + arguments[1].getTypeName() + "\""); 


} 


return returnOIResolver .get(); 


方法 evaluate 的 输入 是 一 个 DeferredObject 对 象 数组 ， 而 initialize 方 
法 中 创建 的 pL 象 束 用 en 中 获取 
到 值 。 在 这 种 情况 下 ， 这 个 函数 将 会 返回 第 1 个 非 null 值 : 


@override 
public Object evaluate(Deferredobject[] arguments) throws HiveException { 
Object retVal = returnOIResolver.convertIifNecessary(arguments[0].get(), 
argumentOIs[0]); 
If (retVal == null ){ 
retVal = returnOIResolver.convertIifNecessary(arguments[1].get(), 
argumentOoIs[1]); 
} 
return retVal; 


} 


最 后 一 个 要 实现 的 方法 就 是 getDisplayString JW ， 其 用 于 Hadoop 
task 内 部 ， 在 使 用 到 这 个 函数 时 来 展示 调试 信息 : 


@Override 

public String getDisplayString(String[] children) { 
StringBuilder sb = new StringBuilder(); 
sb.append("if "); 
sb.append(children[0]); 


sb.append(" is null "); 
sb.append("returns"); 
sb.append(children[1]); 
return Sb,toString() ， 


为 了 展示 这 个 UDF 的 通用 处 理 特性 ， 下 面 的 查询 中 对 其 调用 了 多 
次 ， 每 次 都 传 入 不 同类 型 的 参数 ， 正 如 下 面 例子 所 展示 的 : 


hive> ADD JAR /path/to/jar.jar; 


hive> CREATE TEMPORARY FUNCTION nvl 
> AS 'org.apache.hadoop.hive.ql.udf.generic,.GenericUDFNv1'; 


Re SELECT nvi( 1 , 2 ) AS coL1, 
nvi( NULL, 5 ) AS coL2, 
> nvi( NULL, "STUFF" ) AS COL3 
> FROM src LIMIT 1; 
1 5 STUFF 


13.8 ”不 变 函 数 


到 目前 为 止 我 们 都 是 将 代码 打包 成 JAR 文 件 ， 然 后 再 使 用 ADD 
JAR 和 CREATE TEMPORARY FUNCTION 命 令 来 使 用 这 些 函 数 的 。 


用 户 同样 可 以 将 目 己 的 函数 永久 地 加 入 到 Hive 中 ， 不 过 这 束 需 要 
对 Hive 的 Java 文 件 进行 简单 的 修改 ， 然 后 重新 编译 Hive。 


对 于 Hive 源 代码 ， 需 要 对 
ql/src/java/org/apache/hadoop/hive/gl/exec/FunctionRegistry.java 这 个 
FunctionRegistry 类 进行 一 行 的 代码 修改 。 然 后 按照 Hive 源 码 分 文 的 编 
译 方式 ， 对 Hive 源 码 重新 编译 即 可 。 


尽管 建议 是 重新 部 署 整 个 新 的 编译 后 的 版 本 ， 不 过 实际 上 只 需要 
软 换 hive-exec-*.jar 这 个 JAR 文 件 即 可 ， 其 中 \ 必 表示 的 是 版 本 号 ， 需 要 
区 换 成 具体 的 值 。 


下 面 瓯 是 一 个 将 nv10 函 数 增加 到 Hive 内 置 函 数列 表 中 时 对 于 
FunctionRegistry 类 的 修改 方式 : 


registerUDF("parse_url", UDFParseUrl.class, false); 
registerGenericUDF("nvil", GenericUDFNv1.class); 


registerGenericUDF("split", GenericUDFSplit.class); 


13.9 用 户 上 自 定 义 聚 合 函 数 


用 户 同 样 可 以 定义 聚合 函数 ， 不 过 ， 接 口 实现 起 来 比较 复杂 。 到 
合 函 数 会 分 多 个 阶段 进行 处 理 。 基 于 UDAF 执 行 的 转换 的 不 同 ， 在 不 
同 阶段 的 返回 值 类 型 也 可 能 十 不 同 的 。 例 如 ，sumO0 这 个 UDAF 可 以 接 
受 基本 数据 类 型 中 的 整 型 输入 ， 然 后 创建 整 型 部 分 数据 ， 最 终 产 生 一 
个 整 型 结 采 ; 而 median(0 这 个 聚合 画 数 会 接受 整 型 输入 ， 然 后 中 间 会 
产生 一 组 整 型 部 分 数据 ， 最 后 产生 一 个 整 型 结 采 。 


作为 通用 的 用 户 目 定义 聚合 函数 的 例 于 ， 可 以 查看 
http://svn.apache.org/repos/asf/hive/ branches/branch- 
0.8/ql/src/java/org/apache/hadoop/hive/ql/udf/generic/Generic 
UDAFAverage.java 这 个 GenericUDAFAverage 类 的 源 代码 。 


可、 


提示 


聚合 过 程 是 在 map 或 者 reduce 任 务 (task) 中 执行 的 ， 其 是 一 
个 有 内 存 限制 的 Javaj 进 程 。 因 此 ， 在 聚合 过 程 中 存储 大 的 结构 化 
数据 可 能 会 产生 内 存 洲 出 错误 。 对 于 min() 这 个 UDAF 而 言 ， 只 需 
要 在 内 存 中 保存 单个 元 素来 进行 比较 即 可 。 而 collectset(O 这 个 
UDAEF 内 部 是 使 用 set 来 排 重 存储 数据 ， 以 减少 内 存 使 用 量 的 。 
percentile_approx() 使 用 近似 算法 来 获取 近似 结果 以 限制 内 存 使 
用 。 在 写 UDAF 的 时 候 一 定 要 注意 内 存 使 用 的 问题 。 通 过 配置 参 
数 mapred.child.java.opts 可 以 调整 执行 过 程 的 内 存 需求 量 ， 但 是 这 
种 方式 并 非 总 是 奏效 。 


<property> 
<name>mapred.child,.java.opts</name> 
<value>-Xmx200m</value> 

</property> 


创建 一 个 COLLECT UDAF 来 模拟 GROUP_CONCAT 


MySQL 中 有 一 个 非常 有 用 的 函数 名 为 GROUP_CONCAT， 其 可 以 
将 一 组 中 的 所 有 元 素 按照 用 户 指定 的 分 隔 符 组 装 成 一 个 字符 串 。 下 面 
这 个 例子 展示 了 MySQL 中 是 如 何 使 用 这 个 函数 的 : 


mysql > CREATE TABLE people ( 
name STRING, 
friendname STRING ); 


mysql > SELECT * FROM people; 


bob Sara 
bob john 
bob ted 
john Sara 
ted bob 
ted Sara 


mysql > SELECT name, GROUP_CONCAT(friendname SEPARATOR ',') 
FROM people 
GROUP BY name,; 


bob sara, john, ted 
john sara 
ted bob, sara 


我 们 无 需 增 加 新 的 语法 加 可 以 在 Hive 中 实现 同样 的 转换 。 首 先 ， 
我 们 需要 一 个 聚合 函数 将 所 有 的 输入 作为 一 个 列表 加 入 到 集合 
Hive 中 已 经 有 了 一 个 叫做 collect_set 的 UDAF 来 将 所 有 的 输入 加 入 到 一 
个 java.util.Set 集 合 中 。Set 类 型 的 集合 会 在 插入 输入 的 时 候 自 动 进行 排 


重 ， 这 对 于 GROUP CONCAI 来 说 是 不 合适 的 。 为 了 组 装 合适 的 集 
合 ， 我 们 使 用 collect_set 中 的 代码 来 将 Set 的 实例 替换 成 ArrayList 实 例 。 
这 样 束 不 会 对 输入 进行 排 重 。 这 个 聚合 过 程 的 结果 就 是 产生 一 个 包含 
有 所 有 值 的 数组 。 


我 们 需要 记 住 的 很 重要 的 一 点 就 是， 用户 的 聚合 计算 应 该 是 允许 
数据 任意 划分 为 多 个 部 分 进行 计算 而 不 会 影响 结 来 的 。 可 以 想象 下 写 
一 个 分 而 治之 的 算法 ， 其 中 划分 的 数据 完全 不 由 用 户 控 制 而 十 由 Hive 
进行 控制 的 。 比 较 正式 的 说 明 是 ， 输 入 的 行 应 该 可 以 分 成 2 个 或 多 个 子 
集 ， 并 可 以 分 别 对 每 个 子 集 进 行 计算 ， 同 时 允许 将 并 行 执行 的 各 个 子 
集 的 结果 合并 到 其 他 并 行 执行 的 结 采 中 ， 最 终 得 到 整个 集合 的 结果。 


下 面 的 代码 在 Github 中 是 可 以 查看 到 的 。 聚 全 过 程 的 所 有 输入 必 
须 是 基本 数据 类 型 。 不 像 GenericUDEF 返 回 的 是 ObjectInspector 对 和 象 ， 
聚合 过 程 返回 的 是 GenericUDAFEvaluator 的 子 类 对 和 象 : 


@Description(name = "collect", value = "_FUNC_ (x) - Returns a list of objects ， "+ 
"CAUTION will easily OO0M on large data sets" ) 
public class GenericUDAFCollect extends AbstractGenericUDAFResolver { 

static final Log LOG = LogFactory.getLog(GenericUDAFCollect.class. getName( ) ) ， 


public GenericUDAFCollect() { 
} 


@Override 
public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters) 
throws SemanticException { 


if (parameters. length != 1) { 
throw new UDFArgumentTypeException(parameters.length - 1, 
"Exactly one argument is expected."),; 


} 
if (parameters[0].getCategory() != ObjectIinspector.Category. PRIMITIVE) { 


throw new UDFArgumentTypeException(0, 
"Only primitive type arguments are accepted but " 
+ parameters[0] .getTypeName() + " was passed as parameter 1."); 


} 


return new GenericUDAFMkListEvaluator(); 


} 


} 


表 13-1 对 基 类 中 提供 的 部 分 方法 进行 了 描述 。 
表 13-1 基 类 中 提供 的 方法 描述 


Hive 会 调用 此 方法 来 初始 实例 化 一 个 UDAF evaluator 类 


于 存储 中 间 聚 合 结果 的 对 象 


数据 载 入 到 聚合 buffer 中 


以 一 种 可 持久 化 的 方法 返回 当前 聚合 的 
的 可 持久 化 是 指 返 回 值 只 os Javaa 
terminatePartial array， 以 及 基本 封闭 类 型 (例如 Double 
Writable 类 、list 和 map 类 型 。 不 能 使 用 
(即使 实现 了 java.io.Serializable) 


RE 将 terminatePartial 返 回 的 中 间 部 分 聚合 结果 合并 到 当前 聚 
口 


在 init 方 法 中 ， 在 判断 评估 器 所 处 的 模式 之 后 ， 可 以 设置 返回 结果 
类 型 的 对 象 检查 入。 


iterate() 方 法 和 terminatePartial0) 方 法 会 在 map 端 使 用 到 ; 而 
terminate() 方 法 和 merge0) 方 法 会 在 reduce 端 使 用 到 ， 用 于 生成 最 终结 
果 。 在 所 有 情况 下 ， 合 并 过 程 都 会 产生 大 的 列表 : 


public static class GenericUDAFMkListEvaluator extends GenericUDAFEvaluator { 
private PrimitiveobjectInspector inputoOI; 
private StandardListobjectInspector 1oi; 
private StandardListobjectInspector internalMergeOI; 


@Override 
public ObjectInspector init(Mode m, ObjectInspector[] parameters) 
throws HiveException { 
super.init(m, parameters),; 
if (m == Mode.PARTIAL1) { 
inputoI = (PrimitiveObjectInspector) parameters[0]; 
return ObjectInspectorFactory 
.getStandardListobjectInspector( 
(PrimitiveobjectInspector) ObjectIinspectorUtils 
.getStandardobjectInspector(inputoI) ) ， 
} else { 
if (!(parameters[0] instanceof StandardListobjectInspector )) { 
InputoI = (PrimitiveObjectInspector) ObjectIinspectorUtils 
,getStandardobjectInspector(parameters[0])， 
return (StandardListobjectInspector) 0bjectInspectorFactory 
.getStandardListobjectInspector(inputOI) ， 
} else { 
internalMergeoI = (StandardListobjectInspector) parameters[0]; 
inputoI = (PrimitiveObjectInspector) 
internalMergeOI.getListElementOobjectInspector(); 
loi = (StandardListObjectInspector) ObjectIinspectorUtils 
.getStandardobjectInspector(internalMergeOI) ， 
return lJoi; 


余下 的 方法 和 类 定义 会 定义 MkArrayAggregationBuffer 以 及 修改 这 
个 buffer 的 顶级 方法 。 


eS 

全 | 

DO A 
| » 提示 


用 户 可 能 已 经 注意 到 Hive 莹 试 尽 可 能 地 避免 通过 new 创 建 对 
象 。Hadoop 和 Hive 依 据 这 个 规则 创建 尽 可 能 少 的 临时 对 象 ， 这 样 
可 以 尽量 减轻 JVM 的 垃圾 回收 过 程 。 在 写 UDF 的 时 候 ， 需 要 牢记 
这 个 原则 ， 因 为 通常 是 可 以 引用 重用 对 象 的 ， 而 使 用 不 变 类 型 对 
象 可 能 会 导致 出 现 bug! 


static class MkArrayAggregationBuffer implements AggregationBuffer { 
List<Object> container,; 


} 


Q@Override 
public void reset(AggregationBuffer agg) throws HiveException { 
((MkArrayAggregationBuffer) agg).container = 
new ArrayList<object>() ， 


} 


QOverride 
public AggregationBuffer getNewAggregationBuffer() 
throws HiveException { 
MkArrayAggregationBuffer ret = new MkArrayAggregationBuffer(); 
reset(ret); 
return ret; 


} 


// Mapside 
QOverride 
public void iterate(AggregationBuffer agg, Object[] parameters) 
throws HiveException { 
assert (parameters.length == 1); 
Object p = parameters[0]; 


If (p != null) { 
MkArrayAggregationBuffer myagg = (MkArrayAggregationBuffer) agg; 
putIntoList(p, myagg); 
} 
} 


// Mapside 
QOverride 
public Object terminatePartial(AggregationBuffer agg) 
throws HiveException { 
MkArrayAggregationBuffer myagg = (MkArrayAggregationBuffer) agg,; 
ArrayList<Object> ret = new ArrayList<0bject>(myagg.container.size()); 
ret.addAll(myagg.container ) ， 
return ret; 


} 


QOverride 
public void merge(AggregationBuffer agg, Object partial) 
throws HiveException { 
MkArrayAggregationBuffer myagg = (MkArrayAggregationBuffer) agg,; 
ArrayList<0bject> partialResult = 
(ArrayList<object>) internalMergeOI.getList(partial); 
for(Object i : partialResult) { 
putIntoList(i, myagg); 
} 
} 


QOverride 

public Object terminate(AggregationBuffer agg) throws HiveException { 
MkArrayAggregationBuffer myagg = (MkArrayAggregationBuffer) agg,; 
ArrayList<Object> ret = new ArrayList<0bject>(myagg.container.size()); 
ret.addAll(myagg.container ) ， 
return ret; 


} 


private void putIntoList(Object p, MkArrayAggregationBuffer myagg) { 
Object pCopy = 
ObjectInspectoruUtils.copyToStandardobject(p,this,inputoI) ， 
myagg.container.add(pCopy); 


} 


使 用 collect 函 数 可 以 返回 所 有 聚合 后 的 值 的 数组 列表 : 


hive> dfs -cat $HOME/afile.txt; 
twelve 12 
twelve 1 
eleven 11 
eleven 10 


hive> CREATE TABLE collecttest (Str STRING, countVal INT) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '09' LINES TERMINATED BY '10 '， 


hive> LOAD DATA LOCAL INPATH '${env:HOME}/afile.txt' INTO TABLE collecttest,; 


hive> SELECT collect(str) FROM collecttest,; 
[twelve, twelve,eleven,eleven] 


函数 concat_ws0 的 第 1 个 参数 是 个 分 隅 符 ， 其 他 的 参数 可 以 是 字符 
捉 或 者 子 符 串 数组 。 返 回 值 是 按照 指定 分 隔 符 将 所 有 字符 串 拼 接 在 一 
起 后 的 字符 串 。 例 如 ， 下 面 这 个 例子 中 我 们 使 用 去 号 将 一 组 字符 串 拼 
接 成 一 个 字符 串 : 


hive> SELECT concat ws( ',' , collect(str)) FROM collecttest,; 
twelve, twleve,eleven,eleven 


GROUP_CONCAT 了 范 数 可 以 按照 如 下 语句 通过 组 合 使 用 GROUP 
BY、COLLECT 和 concat_ws() 达 到 同样 的 效果 : 


hive> SELECT str, concat ws( ',' , collect(cast(countVal AS STRING) ) ) 
> FROM collecttest GROUP BY str,; 


eleven 11,10 
twelve 12,1 


13.10 ”用 户 目 定 义 表 生成 加 数 


尽管 UDF 可 用 来 返回 array( 数 组 ) 和 structure( 结 构 体 )， 但 是 它们 无 
法 返回 多 列 或 多 行 。 用 户 目 定义 表 生 成 函数 (或 简称 UDTF) 通过 提 
供 一 个 可 以 返回 多 列 甚至 多 行 的 程序 接口 来 满足 这 个 需求 的 。 


13.10.1 ”可 以 产生 多 行 数据 的 UDTF 


我 们 已 经 在 好 几 个 例子 中 使 用 了 explode 方 法 。explode 方 法 的 输入 
征 一 个 数组 ， 而 将 数组 中 每 个 元 素 都 作为 一 行进 行 输出 。 达 到 相同 效 
果 的 另 一 种 可 选 方式 就 是 使 用 UDTF， 基 于 某 个 输入 产生 多 行 输 出 。 
这 里 我 们 将 展示 一 个 UDTF， 其 效果 类 似 于 for 循 环 。 这 个 函数 接受 的 
征用 户 输入 的 起 始 数值 和 终止 数值 ， 然 后 输出 N 行 数据 : 


hive> SELECT forx(1,5) AS i FROM collecttest,; 
1 


这 个 类 继承 的 是 GenericUDTF 接 口 。 开 始 我 们 就 声明 了 3 个 整 型 变 
量 ， 也 就 是 变量 start、 变 量 end 和 变量 inc( 代 表 递 增 量 )。 数 组 对 象 


forwardObj 用 于 存放 要 返回 的 结 采 行 : 


package com.jointhegrid.udf.collect,; 


java.util.ArrayList,; 
org.apache.hadoop.hive.ql.exec.UDFArgumentException; 
org.apache.hadoop.hive.ql.metadata.HiveException,; 
org.apache.hadoop.hive.ql.udf.generic.GenericUDFUtils.*,; 
org.apache.hadoop.hive.ql.udf.generic.GenericUDTF; 
org.apache.hadoop.hive,.serde2.0objectinspector.*,; 
org.apache.hadoop.hive.serde2.0objectinspector.primitive.*,; 
org.apache.hadoop.io.Intwritable; 


class GenericUDTFFor extends GenericUDTF { 
Intwritable start,; 
Intwritable end,; 


Intwritable inc,; 


Object[] forward0bj = null; 


因为 本 函数 的 输入 参数 都 是 和 常数， 所 以 在 初始 化 的 initialize 方 法 中 
整 可 以 确定 各 个 变量 的 值 了 。 对 于 本 函数 ， 非 常量 数据 是 无 法 到 达 
ee 处 理 的 。 第 3 个 参数 ， 也 就 是 递增 量 是 可 选 的 ， 默 认 
值 是 1: 


QOverride 
public StructobjectInspector initialize(ObjectIinspector[] args) 
throws UDFArgumentException { 


start=((WritableconstantIntobjectInspector) args[0]) 
.getwritableConstantValue(); 
end=( (WritableConstantIintObjectInspector) args[1]) 
.getwritableConstantValue(); 
If (args.length == 3) { 
inc =((WritableConstantIntObjectInspector) args[2]) 
.getwritableConstantValue(); 
} else { 
inc = new Intwritable(1); 


} 


本 函数 只 会 返回 一 行 数据 ， 而 且 这 行 数据 的 数据 类 型 确定 古 整 型 
. " 我们 需 要 提供 一 个 列 各， 不 过 用 户 通常 可 以 在 后 面 重新 命名 列 


this,forwardobj = new Object[1]; 
ArrayList<String> fieldNames = new ArrayList<String>(); 
ArrayList<ObjectInspector> fieldoIs = new ArrayList<ObjectInspector>(); 


fieldNames.add("col10"); 
fieldoIs.add( 
PrimitiveObjectInspectorFactory.getPprimitiveJavaObjectInspector( 
PrimitiveCategory.INT)); 


return ObjectIinspectorFactory.getStandardSstructObjectInspector( 
fieldNames, fieldOoIs); 
} 


process 方 法 十 实际 进行 处 理 的 过 程 。 需要 注意 的 是 ， 这 个 方法 的 
返回 类 型 是 void。 这 是 因为 UDTF 可 以 向 前 获取 和 零 行 或 多 行 数据 ， 而 不 
像 UDF， 其 只 有 一 返回 值 。 这 种 情况 下 会 在 for 循 环 中 对 forward 方 法 
进行 多 次 调用 ， 这 样 每 迭代 一 次 就 可 以 获取 一 行 数据 : 


Q@Override 
public void process(0Object[] args) 
throws HiveException, UDFArgumentException { 
for (int i = start.get(); i < end.get(); i = i + inc.get()) { 
this.forwardobj[0] = new Integer(i); 
forward(forwardobj ); 
} 
} 


QOverride 
public void close() throws HiveException { 


} 


} 


13.10.2 ”可 以 产生 具有 多 个 字段 的 单行 数据 的 UDTF 


返回 一 行 但 是 包含 多 列 数据 的 UDTF 的 一 个 例子 就 是 
parse_url_tuple 这 个 函数 。 这 是 个 内 置 Hive 函 数 ， 其 有 一 个 输入 参数 是 
一 个 URL 链 接 ， 它 还 可 以 指定 其 他 多 个 常数 ， 来 获取 用 户 期 望 返回 的 
特定 部 分 : 


hive> SELECT parse_url tuple(weblogs.url, 'HOST', 'PATH') 
> AS (host, path) FROM weblogs,; 


google.com /index.html 
hotmail.com /a/links.html 


这 种 类 型 的 UDTF 的 好 处 是 URIL 只 需要 被 解析 一 次 ， 然 后 就 可 以 
返回 多 个 列 。 这 显然 是 个 性 能 优势 。 而 替代 方式 是 : 如 果 使 用 UDE 的 
话 ， 那 么 就 需要 写 多 个 UDF， 分 别 抽取 出 其 URL 的 特定 部 分 。 使 用 

UDF 需 要 写 更 多 的 代码 ， 同 时 因为 URL 需 要 多 次 进行 解析 ， 所 以 需要 
消耗 更 长 的 时 间 。 可 能 需要 类 似 于 如 下 的 使 用 方式 ; 


13.10.3 ”可 以 模拟 复杂 数据 类 型 的 UDTF 


UDTEF 可 作为 一 种 回 Hive 中 增加 更 多 复杂 数据 类 型 的 技术 。 例 
如 ， 某 个 复杂 数据 类 型 可 以 序列 化 成 一 个 编码 字符 串 ， 而 UDTF 可 以 
在 需要 的 时 候 对 这 个 复杂 数据 类 型 进行 反 序 列 化 。 假 设 我 们 有 一 个 名 
为 Book 的 Java 类 。Hive 无 法 直接 处 理 这 样 的 数据 类 型 ， 不 过 Book 对 象 
可 以 编码 成 字符 串 格 式 ， 并 从 字符 串 格 式 解码 出 来 : 


public class Book { 
public Book () { } 
public String isbn,; 
public String title; 
public String [] authors,; 


/* note: this system will not work if your table is 
using '|' or ',' as the field delimiter! */ 

public void fromsSstring(String parts){ 

String [] part = part.split("\|"); 

isbn = Integer.parseInt( part[0] ); 

title = part[1] ; 

authors = part[2].split(","); 
} 


public String toString(){ 


return isbn+"\t"+title+"\t"+StringUtils.join(authors, ","); 


} 
} 


假设 Book 对 和 象 的 字符 串 格 式 是 如 下 这 种 形式 的 ， 同 时 假设 目前 为 
止 还 无 法 使 用 SerDe 划 分 来 按照 分 隔 符 “j ”和 “，?” 进 行 分 割 : 


hive> SELECT * FROM books,; 
5555555|Programming Hive|Edward,Dean, Jason 


对 于 原始 数据 格式 ， 可 能 是 按照 如 下 方式 进行 分 割 得 到 的 : 


hive> SELECT cast(split(book_info,"\|")[0] AS INTEGER) AS isbn FROM books 
> WHERE split(book_info,"\|")[1] = "Programming Hive"; 


5555555 


这 个 HiveQL 语 句 可 以 正确 地 执行 ， 不 过 对 于 最 终 用 户 来 说 有 更 加 
简单 的 处 理 方式 。 例 如 ， 写 这 种 类 型 的 查询 可 能 需要 参考 相应 的 文档 
来 确定 使 用 哪个 字段 以 及 使 用 哪 种 数据 类 型 ， 还 要 牢记 类 型 转换 的 规 
则 ， 以 及 其 他 一 些 事项 。 相 比 之 下 ， 使 用 UDTF 可 以 使 HiveQL 更 加 简 
清和 方便 阅读 。 下 面 这 个 例子 ， 使 用 到 了 parse_book() 这 个 UDTE: 


hive> FROM ( 
> parse book(book_info) AS (isbn, title, authors) FROM Book ) a 
> SELECT a.isbn 
> WHERE a.title="Programming Hive" 
> AND array_contains (authors, 'Edward ' ) ， 
5555555 


函数 parse_book0O 人 允许 Hive 返 回 不 同 数据 类 型 的 多 个 列 ， 分 别 用 来 
表示 book 的 各 个 字段 : 


package com.jointhegrid.udf.collect,; 


import java.util.ArrayList,; 

import org.apache.hadoop.hive.ql.exec.UDFArgumentException,; 

import org.apache.hadoop.hive.ql.metadata.HiveException,; 

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF; 

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector; 

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory; 

import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectIinspector 
.PrimitiveCategory; 

import org,.apache,.hadoop.hive.serde2.objectinspector ,StructobjectInspector 

import org.apache.hadoop.hive.serde2.objectinspector.primitive 
.PrimitiveOobjectIinspectorFactory; 

import org.apache.hadoop.hive.serde2.objectinspector .primitive 
.WritableConstantStringObjectIinspector; 

import org.apache.hadoop.hive.serde2.objectinspector.primitive 


,WritableStringobjectInspector 
import org.apache.hadoop.io.Text; 


public class UDTFBook extends GenericUDTF{ 


private Text Sent ， 
Object[] forwardo0bj = null; 


这 个 函数 将 会 返回 包含 有 3 个 属性 信息 的 数组 ， 其 中 ，ISBN 是 个 
整数 ，title 〈 书 名 ) 是 个 字符 串 ，authors (作者 ) 也 是 字符 串 。 需 要 注 
意 的 是 ， 所 有 的 UDF 都 是 可 以 返回 蔷 套 数据 类 型 的 ， 例 如 ， 我 们 可 以 
返回 包含 字符 串 数组 的 数组 : 


QOverride 
public StructobjectInspector initialize(ObjectIinspector[] args) 
throws UDFArgumentException { 


ArrayList<String> fieldNames = new ArrayList<String>(); 
ArrayList<ObjectInspector> fieldOIs = new ArrayList<0ObjectInspector>(); 


fieldNames.add("isbn"); 
fieldoIs.add(PrimitiveObjectInspectorFactory.getPrimitiveJavaObjectIinspector( 
PrimitiveCategory .INT)); 


fieldNames.add("title"),; 
fieldoIs.add(PrimitiveObjectInspectorFactory.getPrimitiveJavaObjectInspector( 
PrimitiveCcategory ,STRING ) ) 


fieldNames.add("authors"); 
fieldoIs.add( ObjectInspectorFactory.getStandardListObjectInspector( 
PrimitiveObjectInspectorFactory.getPrimitiveJavaObjectIinspector( 
PrimitiveCategory .STRING) 
) 
); 


forwardobj= new Object[3]; 
return ObjectInspectorFactory,.getStandardStructobjectInspector( 
fieldNames, fieldOIs); 


process 方 法 只 会 返回 一 行 。 不 过 ， 对 象 数 组 中 的 每 个 元 素 都 将 绑 


定 一 个 特定 的 变量 : 


@override 
public void process(Object[] os) throws HiveException { 
sent = new Text(((StringobjectInspector)args[0]) 
.getPrimitiveJavaObject(os[0])); 
String parts = new String(this.sent.getBytes()); 


String [] part = parts.split("\\|"); 
forwardobj[0]=Integer.parseInt( part[0] ); 
forwardobj[1]=part[1] ， 
forwardobj[2]=part[2].splLit("”，"”)， 
this,forward(forwardobj ); 

} 


Q@Override 
public void close() throws HiveException { 


} 


我 们 在 Book 这 个 UDTF 后 面 使 用 了 AS， 这 样 可 以 允许 用 户 目 定义 
结果 字段 的 别名 。 这 些 别名 可 以 在 查询 的 其 他 部 分 使 用 到 ， 而 无 需 重 
复 从 Book 中 解析 出 信息 : 


client.executel( 

"create temporary function book as 'com.jointhegrid.udf.collect.UDTFBook'"); 
client.execute("create table booktest (str string) "); 
client.executel( 

"load data local inpath '" + p,toString() + "' into table booktest"),; 


client.execute("select book(str) AS (book, title, authors) from booktest"); 
[555 Programming Hive "Dean","Jason","Edward"] 


13.11 在 UDF 中 访问 分 布 式 缓存 


UDF 是 可 以 访问 分 布 式 缓存 、 本 地 文件 系统 、 长 至 分 布 式 文件 系 
统 中 的 文件 的 。 不 过 这 样 的 访问 应 该 小 心 使 用 ， 因 为 这 种 使 用 会 显著 
地 降低 执行 效率 。 


Hive 的 一 个 常用 的 使 用 场景 就 是 分 析 网 页 日 志 。 比 较 大 众 的 一 个 
操作 了 就 是 基于 IP 地 址 进行 地 理 位 置 定位 。Maxmind 提 供 了 一 个 GeoIP 数 
据 库 ， 并 提供 了 Java API 来 访问 这 个 数据 库 。 通 过 将 这 个 API 包 装 成 一 
个 UDF， 束 可 以 在 Hive 查 询 中 通过 IP 地 址 查询 对 应 的 地 理 位 置信 息 。 


GeoIP API 会 使 用 一 个 较 小 的 数据 文件 。 其 对 于 通过 UDF 访 问 一 个 
分 布 式 缓存 文件 来 说 是 非常 理想 的 。 本 例 的 完整 代码 可 以 通过 如 下 链 
接 获 得 : https://github.com/edwardcapriolo/hive-geoip/。° 


ADDERFILE 命 令 用 于 通过 Hive 将 数据 文件 加 载 到 分 布 式 缓存 中 。 而 
ADD JAR 命令 可 以 将 指定 的 JavaJAR 文 件 加 载 到 分 布 式 缓存 和 类 路 径 
中 。 最 后 ， 在 执行 查询 前 需要 创建 临时 函数 : 


hive> ADD FILE GeoIP .dat' 
hive> ADD JAR geo-ip-java.jar; 
hive> ADD JAR hive-udf-geo-ip-jtg.jar; 
hive> CREATE TEMPORARY FUNCTION geoip 
> AS 'com.jointhegrid.hive.udf.GenericUDFGeoIP'; 


hive> SELECT ip, geoip(source_ ip, 'COUNTRY_NAME', './GeoIP.dat') FROM weblogs; 
209.191.139.200 United States 
10.10.0.1 Unknown 


( 译 者 注 ， 这 个 SQL 中 source_p 应 该 是 p， 正 确 的 语句 应 该 是 
SELECT ip, geoip(ip, ‘COUNTRY_NAME’, ’./GeoIP.dat’) FROM 
weblogs ° ) 


上 面 的 例子 中 返回 了 2 条 记录 ， 其 中 一 条 显示 这 个 IP 是 来 目 美 国 
的 ， 而 男 一 条 显示 对 应 的 IP 无 对 应 的 地 理 位 置信 息 。 


这 个 geoip0) 函 数 售 有 3 个 参数 ， 第 1 个 参数 是 IP 地 址 ， 可 以 是 字符 
串 类 型 或 者 long 类 型 ; 第 2 个 参数 是 一 个 字符 串 ， 可 选 的 值 有 
COUNTRY NAME 或 DMA_CODE; 最 后 1 个 参数 是 数据 文件 名 ， 这 个 
文件 已 经 是 加 载 到 分 布 式 缓存 中 了 。 


对 UDF 的 第 一 次 调用 (也 就 是 触发 调用 Java 函 数 中 evaluate 方 法 ) 
会 实例 化 一 个 LookupService 对 象 来 使 用 分 布 式 缓存 中 的 那个 数据 文 
件 。 这 个 查询 是 需要 保存 在 一 个 引用 中 的 。 因 此 ， 其 只 需 在 map 或 者 
reduce task 的 初始 化 阶段 初始 一 次 ， 就 可 在 对 应 task 的 整个 生命 周期 中 
使 用 。 需 要 注意 的 是 ，LookupService 具 有 目 己 的 内 置 缓存 ， 也 就 是 
LookupService.GEOIP_MEMORY_CACHE 。 因 此 ， 这 个 优化 可 以 避免 
在 查询 JP 时 ， 频 繁 访问 磁 表 。 


下 面 是 evaluate0) 方 法 的 源码 : 


Q@Override 
public Object evaluate(Deferredobject[] arguments) throws HiveException { 
If (argumentOIs[0] instanceof LongObjectInspector) { 
this.ipLong = ((LongObjectInspector)argumentOIs[0]).get(arguments [0].get()); 
} else { 
this.ipSstring = ((StringobjectInspector)argumentoIs[0]) 
,getPrimitiveJavaobject(arguments[0].get())， 


this.property = ((StringobjectInspector)argumentoIs[1]) 


,getPrimitiveJavaobject(arguments[1].get())， 
if (this.property != null) { 
this.property = this.property.toUpperCase( ); 


} 
if (1s ==nul1){ 


if (argumentOIs.length == 3){ 
this.database = ((StringobjectInspector)argumentoIs[1]) 
.getPprimitiveJavaObject(arguments[2].get()); 
File f = new File(database); 
If (!f.exists()) 
throw new HiveException(database+" does not exist"); 
try { 
Js = new LookupService ( f , LookupService.GEOIP_ MEMORY_CACHE ); 
} catch (IOException ex){ 
throw new HiveException (ex); 


evaluate 方 法 中 的 if 语句 决定 了 将 返回 哪个 方法 的 数据 。 在 本 例 
中 ， 需 要 返回 的 内 容 是 国家 名 : 


if (COUNTRY_PROPERTIES.contains(this.property)) { 
Country country = ipString != null ? 
ls.getCountry(ipString) : ls.getCountry(ipLong); 

if (country == null) { 
return null; 

} else if (this.property.equals(COUNTRY_NAME)) { 
return country.getName( ); 

} else if (this.property.equals(COUNTRY_CODE)) { 
return country.getCode( ); 


assert(false); 
} else if (LOCATION_ PROPERTIES.contains(this.property)) { 


} 


13.12 ”以 函数 的 方式 使 用 注解 


本 章 中 我 们 提 及 过 Description 标 注 ， 并 介绍 了 其 用 于 在 运行 时 为 
Hive 方 法 提供 说 明文 档 。UDF 中 还 存在 有 其 他 的 标注 ， 正 确 使 用 这 些 
0 I 甚至 有 时 对 于 某 些 Hive 查 询 ， 可 以 提高 

行 效 率 : 


public @interface UDFType { 
boolean deterministic() default true; 


boolean stateful() default false; 
boolean distinctLike() default false; 


} 


13.12.1 ”定数 性 (deterministic) 标注 


默认 情况 下 ， 对 于 大 多 数 的 得 询 来 说 ， 都 是 满足 定数 性 的 ， 因 为 
它们 本 映 就 具有 定数 性 。 当 然 rand() 范 数 古 个 例外 。 


如 果 一 个 UDF 是 非 定 数 的 ， 那 么 就 不 会 包含 在 分 区 裁剪 中 。 

下 面 是 使 用 rand0 画 数 的 ， 具 有 非 定数 性 的 查询 的 一 个 例子 : 

如 果 rand0 是 定数 的 ， 那 么 结果 只 会 在 计算 阶段 计算 一 次 。 因 为 包 
含有 rand0 的 查询 是 非 定数 的 ， 因 此 对 于 每 行 数 据 ，rand0 的 值 都 需要 
重新 计算 一 次 。 

13.12.2 ”状态 性 (stateful) 标注 


几乎 所 有 的 UDF 默 认 都 是 有 状态 性 的 ， 而 rand0 数 是 无 状态 性 
的 ， 因 为 其 每 次 调用 都 返回 不 同 的 值 。stateful 标 注 适 用 于 如 下 情况 。 


@ 有 状态 性 的 UDEF 只 能 使 用 在 SELECT 语句 后 面 ， 而 不 能 使 用 到 
其 他 如 WHEHRE、ON、ORDER、GROUP 等 语句 后 面 。 


@ 当 一 个 查询 语句 中 存在 有 状态 性 的 UDF 时 ， 那 么 隐 舍 的 信息 就 
是 ，SELECT 将 会 和 TRANSFORM (例如 ， 一 个 DISTRIBUTE、 
CLUSTER、SORT 语 句 ) 进行 类 似 的 处 理 ， 然 后 会 在 对 应 的 reducer 内 
部 进行 执行 ， 以 保证 结果 是 预期 的 结果 。 

@ 如 果 状 态 性 标记 stateful 设 置 值 为 tue， 那 么 这 个 UDEF 同 样 应 该 
作 定数 性 的 (即使 这 时 定数 性 标记 deterministic 的 值 是 显 式 设置 为 
truep" 是 


详细 信息 请 参考 如 下 链接 : 
https://issues.apache.org/jira/browse/HIVE-1994 ° 


13.12.3 ”唯一 性 


有 些 函 数 ， 即 使 其 输入 的 列 的 值 是 非 排 重 值 ， 其 结果 也 是 类 似 于 
使 用 了 DISTINCT 进 行 了 排 重 操 作 ， 这 类 场景 可 定义 为 具有 唯一 性 。 
这 样 的 例子 有 min 和 max 函 数 ， 即 使 实际 数据 中 有 重复 值 ， 其 最 终结 
也 是 唯一 排 重 值 。 


13.13 ” 宏 命 令 


宏 命 令 提 供 了 在 HiveQL 中 调用 其 他 函数 和 操作 符 来 定义 函数 的 功 
能 。 对 于 特定 的 情况 ， 使 用 宏 命令 要 比 使 用 Java 编 写 UDF 或 使 用 Hive 
的 streaming 功 能 更 加 方便 ， 因 为 宏 命 令 无 需 额外 编写 代码 或 脚本 。 


可 以 使 用 CREATE TEMPORARY MACRO 语 法 来 定义 一 个 宏 命 
令 。 下 面 是 一 个 使 用 宏 命 令 创建 SIGMOID 函 数 的 例子 : 


hive> CREATE TEMPORARY MACRO SIGMOID (x DOUBLE) 1.0 / (1.0 + EXP(-x)); 
hive> SELECT SIGMOID(2) FROM src LIMIT 1; 


( 译 者 注 : 这 个 功能 实际 到 Apache Hive 0.10.0 版 本 还 没有 真正 提 
供 ， 对 于 这 个 问题 请 参考 : https://issues.apache.org/jira/browse/HIVE- 
2655) 


第 14 章 Streaming 


Hive 是 通过 利用 或 扩展 Hadoop 的 组 件 功能 来 运行 的 ， 常 见 的 抽象 
有 InputFormat、 OutputFormat、Mapper 和 Reducer， 还 包含 一 些 目 己 
的 抽象 接口 ， 例 如 SerializerDeserializer (SerDe)、 用 户 目 定 义 函 数 
(UDF) 和 StorageHandlers 。 


这 些 组 件 都 是 Java 组 件 ， 不 过 Hive 将 这 些 复杂 的 底层 实现 隐藏 起 
2 而 提供 给 用 户 通过 SQL 语句 执行 的 方式 ， 而 不 是 使 用 Java 代 


Streaming 提 供 了 另 一 种 处 理 数 据 的 方式 。 在 streaming job 中 ， 
Hadoop Streaming API 会 为 外 部 进程 开局 一 个 IO 管道 。 然 后 数据 会 被 
传 给 这 个 进程 ， 其 会 从 标准 输入 中 读 取 数据 ， 然 后 通过 标准 输出 来 写 
结果 数据 ， 最 后 返回 到 Streaming API job。 尽 管 Hive 并 没有 直接 使 用 
Hadoop 的 Streaming API， 不 过 它们 的 工作 方式 是 一 样 的 。 


这 种 管道 计算 模型 对 Unix 操 作 系 统 以 及 其 衍生 系统 ， 如 Linux 和 
Mac OS X 的 用 户 来 说 是 非常 网 悉 的 。 


4 a 


a 
0%, 坟 


提示 


Streaming 的 执行 效率 通常 会 比 对 应 的 编写 UDF 或 改写 
InputFormat 对 象 的 方式 要 低 。 管 道中 序列 化 然后 反 序列 化 数据 通 
常 是 低 效 的 ， 而 且 以 通常 的 方式 很 难 调试 整个 程序 。 不 过 ， 对 于 
快速 原型 设计 和 支持 非 Java 编 写 的 已 有 代码 来 说 是 非常 有 用 的 。 
本 这 也 是 个 高 效 的 方 
式 。 


Hive 中 提供 了 多 个 语法 来 使 用 streaming， 包 括 : MAP()、 
REDUCE() 和 TRANSFORM()。 要 注意 的 重要 的 一 点 是 MAPO 实 际 上 并 
非 可 以 强制 在 map 阶 段 执 行 streaming， 正 如 reduce 并 非 可 以 强制 在 
reduce 阶 段 执行 streaming 一 样 。 因 为 这 个 原因 ， 对 于 相同 的 功能 ， 通 


常 建议 使 用 常规 的 TRANSFORMO 语 句 ， 这 样 可 以 避免 误导 读者 对 查 
询 语句 产生 疑惑 。 


对 于 我 们 的 streaming 例 子 ， 我 们 将 使 用 到 一 个 表 名 为 8 的 小 表 ， 其 


pe 分 别 是 coll 和 col2， 它 们 都 是 INT 类 型 的 ， 表 中 有 2 行 
24 : 


hive> CREATE TABLE a (col1 INT， col2 INT) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 


hive> SELECT * FROM a; 


hive> DESCRIBE a; 
int 
int 


14.1 恒 等 变换 


最 基本 的 streaming job 束 是 恒 等 运算 。/bin/cat 这 个 shell 命 令 可 以 
将 传递 给 它 的 数据 直接 输出 ， 所 以 满足 恒 等 运算 。 本 例 中 ，/bin/cat 这 
个 shell 假 定 已 经 安装 到 所 有 的 TaskTracker 甩 点 了 。 实 际 上 任意 的 Linux 
系统 都 会 包含 有 这 个 脚本 的 ! 稍 后 ， 我 们 将 展示 当 一 些 程序 没有 安 状 
到 集群 中 时 ， 通 过 Hive 如 何 将 这 些 程序 “加 载 ?到 集群 中 : 
hive> SELECT TRANSFORM (a, b) 


> USING '/bin/cat' AS newA, newB 
> FROM default.a; 


14.2 ”改变 类 型 


TRANSFORM 瓜 回 的 字段 的 数据 类 型 默认 是 字符 串 类 型 的 。 不 过 
可 以 通过 如 下 语法 将 类 型 转换 成 其 他 数据 类 型 ; 


hive> SELECT TRANSFORM (coli, col2) 

> USING '/bin/cat' AS (newA INT , newB DOUBLE) FROM a; 
4 5.0 
3 2.0 


14.3 ”投影 变换 


Streaming 中 可 以 使 用 cut 命 令 提 取 或 者 映射 出 特定 的 字段 。 换 句 话 
说 ， 可 以 达到 和 SELECT 语句 相同 的 行为 : 


hive> SELECT TRANSFORM (a, b) 
> USING '/bin/cut -fl1' 


> AS newA, newB FROM a; 
4 NULL 
3 NULL 


可 以 注意 到 ， 上 面 的 例子 中 ， 查 询 从 外 部 处 理 过 程 中 返回 的 只 
一 个 字段 ， 而 实际 期 望 的 是 2 个 字段 ， 因 此 字段 newB 的 值 总 是 NULL 。 
默认 情况 下 ，TRANSFORM 需 要 2 个 字段 ， 不 过 实际 上 可 以 为 比 其 小 
的 任意 个 数 的 字段 : 


hive> SELECT TRANSFORM (a, b) 
> USING '/bin/cut -fl1' 
> AS newA FROM a; 

4 

3 


14.4 ”操作 转换 


/bin/sed 程 序 (对 于 Mac OS X 系 统 是 /usr/bin/sed) 是 一 个 流 编辑 
器 。 其 可 以 接受 输入 数据 流 ， 然 后 按照 用 户 的 指定 进行 编辑 ， 基 后 将 
编辑 后 的 结 采 箱 出 的 答 出 数据 流 中 。 如 下 例子 中 将 字符 串 “4” 芍 换 成 了 
字符 串 “10”; 
hive> SELECT TRANSFORM (a, b) 
> USING '/bin/sed s/4/10/" 
> AS newA, newB FROM a; 


10 5 
3 2 


14.5 ”使 用 分 布 式 内 存 


到 目前 为 止 所 列举 的 streaming 例 子 都 是 UNIX 系 统 或 其 衍生 系统 
市 的 如 cat 和 sed 这 样 的 系统 脚本 程序 。 当 一 个 查询 所 需要 的 文件 没有 在 
每 个 TaskTracker 上 事先 安装 好 时 ， 用 户 需 要 使 用 分 布 式 绥 存 将 数据 或 


者 程序 文件 传输 到 集群 中 ， 然 后 在 job 完成 后 会 清理 挥 这 些 数据 和 文 
件 。〈 译 者 注 : Hadoop 的 分 布 式 缓存 可 以 对 缓存 内 的 文件 安 逆 LRU 原 
则 进行 删除 ， 因 此 并 非 是 job 一 结束 就 立即 删除 掉 文 件 的 。) 


这 个 功能 很 有 用 ， 因 为 在 大 规模 集群 上 安装 〈《 有 时 需要 郝 载 ) 大 
量 的 小 组 件 会 成 为 一 件 很 有 负担 的 事情 。 同 时 ， 缓 存 中 会 独立 保存 每 


个 job 的 缓存 文件 ， 而 不 会 相互 干扰 。 
下 面 的 例子 是 一 个 将 摄氏 温度 转换 成 华氏 温度 的 bash shell 脚 本 : 


while read LINE 
do 


res=$(echo "scale=2;((9/5) * $LINE) + 32" | bc) 
echo $res 
done 


可 以 在 本 地 执行 这 个 脚本 来 测试 一 下 。 这 个 脚本 不 会 提示 输入 。 
输入 100， 然 后 按 回 车 键 ， 这 时 这 个 进程 会 通过 标准 输出 打印 出 
212.00;， 输 入 另 一 个 数值 ， 然 后 程序 融会 返回 另 一 个 相应 的 结 末 。 用 
a 可 以 持续 地 输入 数值 ， 也 可 以 通过 Control + D 组 合 键 退出 程序 终止 
葵 入 。 


#!/bin/bash 


Hive 的 ADD FILE 功 能 可 以 将 文件 加 入 到 分 布 式 缓存 中 。 而 被 增加 
的 文件 会 被 存储 到 每 个 task 节 点 机 器 的 当前 工作 目录 下 。 这 样 可 以 使 
得 transform task 和 直接 使 用 脚本 而 不 用 确定 到 哪里 去 找 这 些 文件 : 


hive> ADD FILE ${env:HOME}/prog_hive/ctof.sh; 
Added resource: /home/edward/prog_hive/ctof.sh 


hive> SELECT TRANSFORM(CcolL1) USING 'ctof.sh' AS convert FROM a; 
39.20 
37.40 


14.6 ”由 一 行 产 生 多 行 


到 目前 为 止 所 列举 的 例子 都 是 获取 一 行 输入 然后 产生 一 行 输出 。 
同样 ， 可 以 使 用 Streaming 对 每 个 输入 行 产 生 多 行 输出 。 这 个 功能 可 以 
产生 类 似 于 EXPLODEO UDF 和 LATERAL VIEW 语法 四 的 输出 。 


给 定 一 个 输入 文件 $HOME/kv_data.txt， 其 内 容 如 下 : 


k1i=v1, k2=v2 


k4=v4, k5=v5, k6=v6 
k7=v7, k7=v7, k3=v7 


我 们 希望 这 些 数据 能 够 以 表格 的 形式 展示 。 这 样 就 可 以 让 常见 的 
HiveQL 操 作 符 处 理 这 些 行 : 


k1 v1 
k2 V2 
k4 k4 


创建 如 下 这 个 Perl 脚本 ， 然 后 保存 为 $4HOME/split_kv.pl: 


#!/UsSr/bin/perl 
while (<STDIN>) { 
my $line = $ ; 
chomp ($line); 
my @kvs = split(/,/, $line); 
foreach my $p (@kvs) { 
my @kv = split(/=/, $p); 
print $kv[0] . "\t" . $kv[1] . "\n",; 
} 
} 


创建 一 个 名 为 kv_data 的 表 。 这 张 表 只 定义 了 一 个 字段 。 行 格式 无 
需 进 行 配置 ， 因 为 streaming 脚 本 会 对 输入 字段 进行 分 割 |: 


hive> CREATE TABLE kv_data ( line STRING ); 


hive> LOAD DATA LOCAL INPATH '${env:HOME}/kv_data.txt' INTO TABLE kv_data; 


对 源 表 使 用 transform 脚 本 。 这 样 之 前 次 乱 的 ， 一行 多 个 条 目的 格 
式 束 转 化 成 了 一 个 具有 2 个 字段 的 键 - 值 对 数据 : 


hive> SELECT TRANSFORM (line) 

> USING 'perl split_kv.pl' 

> AS (key, value) FROM kv_data,; 
k1 v1 


14.7 使 用 streaming 进 行 聚合 计算 


同样 可 以 使 用 streaming 做 类 似 于 Hive 的 内 置 男 数 SUM 一 样 的 聚合 
运算 。 这 是 因为 streaming 人 处 理 过 程 可 以 对 每 行 输入 返回 0 或 多 行 输出 。 


为 了 能 在 一 个 外 部 应 用 程序 中 完成 聚合 ， 脚 本 中 在 循环 外 面 移 定 
义 了 一 个 计数 器 ， 然 后， 循环 内 部 不 断 从 输入 流 中 读 取 输入 并 进行 计 
算 ， 最终 输出 sum 求 和 结果 : 


#!/UsSr/bin/perl 

my $sum=0; 

while (<STDIN>) { 
my $line = $ ; 


chomp( $line); 
$sum=${sum}+${1line}; 


print $sum; 


创建 一 个 表 并 导入 整数 数据 ， 每 行 一 个 整数 ， 用 于 测试 : 


hive> CREATE TABLE Sum (number INT); 


hive> LOAD DATA LOCAL INPATH '${env:HOME}/data to_ sum.txt' INTO TABLE sum; 
hive> SELECT * FROM sum; 


将 streaming 程 序 增加 到 分 布 式 缓存 中 ， 并 在 TRANSFORM 和 查询 中 
人 ° 这 个 处 理 过 程 将 会 返回 一 行 结果 ， 也 就 是 对 输入 求 和 后 的 结 


hive> ADD FILE ${env:HOME}/aggregate.pl; 
Added resource: /home/edward/aggregate.pl 


hive> SELECT TRANSFORM (number) 
> USING 'perl aggregate.pl' AS total FROM sum; 


14 


不 过 可 惜 的 是 ， 不 能 够 像 UDAF SUM0 那 样 在 单个 查询 中 执行 多 
个 TRANSFORM 过 程 。 例 如 : 


hive> SELECT sum(number) AS one, sum(number) AS two FROM sum; 
14 14 


同时 ， 对 于 中 间 数 据 ， 如 有 果 不 使 用 CLUSTER BY 或 者 
DISTRIBUTE BY 的 话 ， 那 么 这 个 job 可 能 会 执行 单个 的 非常 长 时 间 的 
map 或 者 reduce task。 尽 管 并 非 所 有 的 操作 都 可 以 并 行 执 行 ， 不 过 大 多 
数 操作 还 是 可 以 的 。 下 一 节 将 讨论 如 何在 需要 的 时 候 以 并 行 的 方式 执 


行 streaming 。 


14.8 CLUSTER BY ~ DISTRIBUTE BY、 
SORT BY 


Hive 提 供 了 语法 来 控制 数据 是 如 何 被 分 发 和 排序 的 。 这 些 功能 
以 应 用 在 大 多 数 的 查询 中 ， 不 过 在 执行 streaming 处 理 时 显得 特别 有 
用 。 例 如 ， 具 有 相同 键 的 数据 需要 分 发 到 同一 个 处 理 节点 上 ， 或 者 数 
怖 需要 按照 指定 列 或 指定 面 数 进行 排序 。Hive 沁 供 了 多 种 方式 来 近 抽 
这 种 行为 。 


第 1 种 控制 这 种 行为 的 方法 就 是 CLUSTER BY 语句 ， 其 可 以 确保 
类 似 的 数据 可 以 分 发 到 同一 个 reduce task 中 ， 而 且 保 证 数据 是 有 序 的 。 


为 了 演示 CLUSTER BY 的 用 法 ， 让 我 们 来 看 一 个 特殊 的 例子 : 通 
过 另外 一 种 方式 来 实现 第 1 章 中 所 介绍 的 Word Count 算 法 。 现 在 ， 我 们 
将 使 用 到 TRANSFORM 功 能 和 2 个 Python 脚本 ， 一 个 脚本 用 于 将 读 取 的 
文本 的 每 行内 容 分 割 成 单词 ， 另 一 个 脚本 用 于 接受 字 频 数据 流 以 及 单 
词 的 中 间 计 数值 (大 多 数 是 数字 “1”) ， 然 后 对 每 个 单词 的 词 频 求 和 汇 


下 面 是 第 1 个 Python 脚本 ， 其 可 以 按照 至 格 将 每 行内 容 分 割 成 单词 
( 按 空格 划分 对 于 标点 符号 等 可 能 不 太 合适 ) : 


Import sys 


for line in sys.stdin: 
words = line.strip().split() 


for word in words: 
print "%s\t1" % (word.lower()) 


不 必 说 明 所 有 的 Python 语法 ， 可 以 很 容易 看 到 ， 这 个 脚本 从 通用 
模块 sys 中 引入 了 常见 的 函数 ， 然 后 循环 获取 “标准 输入 流 ” 中 每 行内 容 
(也 就 十 调 用 stdin 芳 数 ) ， 再 按照 空格 对 每 行内 容 进 行 划 分 ， 生 成 一 
个 单词 集合 words， 然 后 遍历 整个 集合 并 输出 每 个 单词 以 及 一 个 制 表 符 
(也 就 是 \)， ， 最 后 输出 每 个 单词 对 应 的 词 频 !2。 


在 我 们 展示 第 2 个 Python 脚本 之 前 ， 让 我 们 先 讨 论 下 传递 给 这 个 脚 
本 的 数据 。 在 我 们 的 TRANSFORM Hive 查 询 中 ， 我 们 将 对 第 1 个 
Python 脚本 的 输出 词组 使 用 CLUSTER BY。 这 样 可 以 将 所 有 相同 的 单 


词 分 配 到 同一 组 中 ， 每 行 一 对 数据 ， 每 对 的 数据 形式 是 单词 \t 次 数 : 


因此 ， 第 2 个 Python 脚本 将 会 更 复杂 些 ， 因 为 其 需要 缓存 当前 处 理 
的 单词 ， 以 及 迄今 为 止 这 个 单词 出 现 的 次 数 。 当 处 理 下 一 个 单词 时 ， 
这 个 脚本 需要 输出 上 一 个 单词 的 词 频数 ， 然 后 重 置 缓存 。 


下 面 束 是 第 2 个 Python 脚 本 : 


import sys 


(last_key, last count) = (None, 0) 
for line in sys.stdin: 
(key, count) = line.strip().split("\t") 
If last_key and last_ key != key: 
print "%s\t%d" % (last_key, last_count) 


(last_key, last_ count) = (key, int(count)) 
else: 


Jast_key = key 
last_count += int(count) 


if last_key: 
print "%s\t%d" % (last_key, last_count) 


我 们 将 假设 这 2 个 Python 脚 本 都 在 用 户 根 目录 下 。 


最 后 ， 我 们 来 看 下 2 个 脚本 结合 使 用 的 Hive 查 询 语句 。 首 先 ， 我 们 
通过 CREATE TABLE 语 名 创建 一 个 输入 表 ， 表 内 容 包含 多 行 的 文本 数 
据 。 这 个 表 我 们 在 第 1 章 使 用 过 。 任 意 文 本 文件 都 可 以 作为 这 张 表 的 数 
据 。 其 次 ， 创 建 的 表 word_count 用 于 保存 计算 后 的 输出 结果 。 其 有 2 个 
字段 ， 一 个 十 word( 表 示 单 词 )， 一 个 是 count( 表 示 次 数 )。 同 时 字段 分 
隔 从 是 \t。 最 后 就 是 结合 使 用 这 2 个 脚本 进行 处 理 的 TRANSFORM 语 句 
了 了 : 


hive> CREATE TABLE docs (line STRING) ， 


hive> CREATE TABLE word_count (word STRING, count INT) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 


hive> FROM ( 
> FROM docs 
> SELECT TRANSFORM (line) USING '${env:HOME}/mapper.py' 
> AS word, count 
> CLUSTER BY word) wc 
> INSERT OVERWRITE TABLE word_count 
> SELECT TRANSFORM (wc.word, wc.count) USING '${env:HOME}/reducer.py' 
> AS word, count,; 


USING 语 句 指定 了 Python 脚本 所 在 的 绝对 路 径 。 


替代 CLUSTER BY 的 最 方便 的 方式 就 是 使 用 DISTRIBUTE BY 和 
SORT BY。 使 用 它们 的 常见 场景 承 是 ， 用 户 期 望 将 数据 按照 某 个 字段 
划分 ， 然 后 按照 另 一 个 字段 排序 。 实 际 上 ，CLUSTER BY word 等 价 
于 DISTRIBUTE BY word SORT BY word ASC 。 


如 下 TRANSFORM 查 询 的 字 频 输出 结果 是 按照 降序 排序 的 : 


FROM ( 
FROM docs 
SELECT TRANSFORM (line) USING '/.../mapper.py’ 
AS word, count 
DISTRIBUTE BY word SORT BY word DESC) wc 


INSERT OVERWRITE TABLE word_count 
SELECT TRANSFORM (wc.,word，Wwc,count) USING '/,../reducer.py' 
AS word，count ， 


使 用 CLUSTER BY 或 者 使 用 结合 SORT BY 的 DISTRIBUTE BY 是 
非常 重要 的 。 因 为 如 果 没 有 这 些 指 示 ，Hive 可 能 无 法 合理 地 并 行 执行 
job， 所 有 的 数据 可 能 都 会 分 发 到 同一 个 reducer 上 ， 这 样 就 会 导致 整体 
job 执行 时 间 延 长 。 


14.9 GenericMR Tools for Streaming to Java 


通常 情况 下 ， 使 用 streaming 是 为 了 将 非 Java 的 代码 结合 到 Hive 
中 。 正 如 我 们 所 看 见 的 ，streaming 几 乎 适用 于 所 有 的 语言 。 使 用 Java 
编写 streaming 也 是 可 以 的 ， 而 且 Hive 中 包含 了 GenericMR API 来 试图 为 
streaming 提 供 类 似 于 Hadoop 的 MapReduce API 的 这 样 的 接口 : 


FROM ( 
FROM src 
MAP value, key 
USING 'java -cp hive-contrib-0.9.0.jar 
org.apache.hadoop.hive.contrib.mr.example.IdentityMapper’ 


AS k, v 
CLUSTER BY k) map_output 
REDUCE Kk, v 
USING 'java -cp hive-contrib-0.9.0.jar 
org.apache.hadoop.hive.contrib.mr.example.WwordCountReduce' 
AS Kk, v; 


为 了 清 难 IdentityMapper 是 怎 人 么 编写 的 ， 我 们 可 以 看 一 下 
GenericMR 所 提供 的 接口 。 其 中 Mapper 接 口 用 于 实现 常见 的 Mapper 实 
现 方法 。 其 提供 了 一 个 map 方 法 ， 这 里 输入 是 字符 串 数 组 类 型 String[] 
的 列 值 : 


package org.apache.hadoop.hive.contrib.mr,; 


public interface Mapper { 
void map(String[] record, Output output) throws Exception,; 


IdentityMapper 个 会 对 输入 数据 做 任何 改变 而 会 将 其 传递 给 收集 妖 
(collector) 。 在 功能 上 这 和 本 章 前 面部 分 所 介绍 的 /bin/cat 的 功能 是 一 
致 的 : 


package org.apache.hadoop.hive.contrib.mr.example; 


import org.apache.hadoop.hive.contrib.mr.GenericMR; 
import org.apache.hadoop.hive.contrib.mr.Mapper,; 
import org.apache.hadoop.hive.contrib.mr.Output,; 


public final class IdentityMapper { 
public static void main(final String[] args) throws Exception { 

new GenericMR().map(System.in, System.out, new Mapper() { 
@Override 
public void map(final String[] record, final Output output) throws Exception { 

output.collect(record); 

} 

}); 


private IdentityMapper() { 


} 
} 


Reducer 接 口 提 供 了 第 一 列 字 符 串 ， 而 其 他 列 可 以 通过 记录 送 代 郁 
获得 。 每 次 友 代 都 会 返回 一 对 字符 串 ， 其 中 第 0 个 元 素 是 重复 的 键 而 其 
下 一 次 元 素 是 值 。output 对 象 表示 输出 结 


package org.apache.hadoop.hive.contrib.mr,; 
Import java.util.Iterator,; 
public interface Reducer { 


void reduce(String key, Iterator<String[]> records, Output output ) 
throws Exception; 


WordCountReduce 类 中 有 一 个 罕 加 器 用 于 对 记录 达 代 器 中 的 每 个 
元 素 进 行 计数 。 当 所 有 的 记录 都 被 计数 后 ， 就 会 生成 一 个 由 键 及 其 对 
应 次 数 所 组 成 的 数组 作为 结果 : 


package org.apache.hadoop.hive.contrib.mr.example; 


import java.util.Iterator,; 

import org.apache.hadoop.hive.contrib.mr.GenericMR; 
import org.apache.hadoop.hive.contrib.mr.Output,; 
import org.apache.hadoop.hive.contrib.mr.Reducer; 


public final class WordCountReduce { 


private WordCountReduce() { 


} 


public static void main(final String[] args) throws Exception { 
new GenericMR().reduce(System.in, System.out, new Reducer() { 
public void reduce(String key, Iterator<String[]> records, Output output) 
throws Exception { 
int count = 0; 
while (records.hasNext()) { 
// note we use col[1] -- the key is provided again as col[0] 
count += Integer.parseInt(records.next()[1]); 
} 
output.collect(new String[] {key, String.valueOof(count)}); 
} 
}); 
} 


14.10 “计算 cogroup 


在 MapReduce 程 序 中 经 常会 对 多 数据 集 进 行 JOIN 连 接 处 理 ， 然 后 
使 用 TRANSFORM 进 行 处 理 。 使 用 UNION ALL 和 CLUSTER BY， 我 
们 可 以 实现 GROUP BY 操作 的 常见 效果 。 《〈 译 者 注 : 这 里 应 该 是 
COGROUP BY 而 不 是 GROUP BY) 


Pig 提 供 了 一 个 原生 的 COGROUP BY 操作 。 


假设 我 们 有 多 个 不 同 源 的 日 志文 件 ， 它 们 具有 相同 的 schema。 我 
们 期 望 将 它们 合并 在 一 起 ， 然 后 通过 一 个 reduce_script 脚 本 进行 分 析 : 


FROM ( 
FROM ( 
FROM order_log ol 
- User Id, order Id, and timestamp: 
SELECT ol.userid AS uid, ol.orderid AS id, av.ts AS ts 


UNION ALL 


FROM clicks_ log cl 
SELECT cl.userid AS uid, cl.id AS id, ac.ts AS ts 
) union_msgs 
SELECT Union_msgs.uid, union_msgs.id, union_msgs.ts 
CLUSTER BY union_ msgs.uid, union_msgs.ts) map 
INSERT OVERWRITE TABLE log_analysis 


SELECT TRANSFORM(map.uid, map.id, map.ts) USING "reduce_script' 
AS (uid, id, ...); 


[1] 这 个 例子 所 使 用 到 的 源码 和 概念 米 自 于 Larry Ogrodnek 在 2009 年 7 月 
14 日 在 Bizo 开 发 博客 上 发 表 的 “Custom Map Scripts and Hive” 博 文 。 


[2] 这 是 最 简单 的 处 理 方 式 。 我 们 也 可 以 缓存 单词 的 次 数 并 直接 输出 最 
终 词 频数 。 这 样 处 理会 减少 WO 开销 ， 因 此 将 会 更 快 ， 但 是 也 因此 ， 其 
实现 起 来 要 更 加 复 洒 。 


自 定 义 Hive 文 件 和 记录 格 
工 


Hive 可 以 通过 多 种 方式 目 定义 其 功能 。 首 和 匈 ，Hive 具 有 变量 和 属 
性 ， 这 个 我 们 在 第 2.7.2 广 “变量 和 属性 ”中 讨论 过 了 。 其 次 ， 用 户 可 以 
通过 目 定 义 UDF 来 扩展 Hive 功 能 ， 在 第 13 章 我 们 有 讨论 过 。 最 后 ， 用 
户 可 以 目 定义 文件 和 记录 格式 ， 这 个 是 本 章 将 进行 讨论 的 内 容 。 


15.1 文件 和 记录 格式 


Hive 中 文件 格式 间 具 有 了 明显 的 差异 ， 例 如 文件 中 记录 的 编码 方 
式 、 记 杂 格 式 以 及 记录 中 字 节 流 的 编码 方式 都 古 不 同 的 。 


本 书 到 目前 为 止 都 是 使 用 文本 文件 格式 存储 的 ， 也 就 是 CREATE 
TABLE 语句 中 默认 的 STORED AS TEXTFILE (请 参考 第 3.3 节 “文本 文 
件数 据 编码 ”中 的 介绍 ) 。 在 文本 文件 中 每 一 行 数据 就 是 一 条 记录 。 大 
多 数 情 况 下 这 些 记 录 使 用 默认 的 分 隔 符 ， 个 然 有 一 些 样 例 数据 使 用 喜 
0 。 不 过 ， 文 本 文件 统一 可 以 包含 JSON 或 者 
XML” 99 o 


对 于 Hive 而 言 ， 文 本 文件 格式 选择 和 记录 格式 是 对 应 的 。 我 们 将 
首先 讨论 文本 格式 ， 然 后 再 讨论 不 同 的 记录 格式 ， 以 及 在 Hive 中 如 采 
使 用 这 些 格式 。 


15.2 ”阐明 CREATE TABLE 句 式 


贯穿 本 书 ， 我 们 已 经 介绍 了 创建 表 的 例子 。 用户 可 能 已 经 发 现 
CREATE TABLE 语 句 具 有 多 种 多 样 的 语法 。 例 如 STORED AS 
SEQUENCEFILE、ROW FORMAT DELIMITED、SERDE、 
INPUTFORMAT、OUTPUTFORMAT 这 些 语法 。 本 章 将 涵 括 这 个 语法 
的 大 部 分 内 容 并 给 出 样 例 。 但 是 需要 注意 的 是 ， 某 些 语法 是 其 他 语法 
的 快捷 用 法 ， 也 就 是 说 ， 可 以 使 概念 变 得 更 易 理 解 的 语法 。 例 如 ， 语 
法 STORED AS SEQUENCEFILE 的 替代 方式 是 指定 INPUTFORMAT 为 


org.apache.hadoop.mapred.SequenceFileInputFormat， 并 指定 
OUTPUTFORMAT 为 
org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat ° 


下 面 我 们 创建 一 些 表 然 后 使 用 DESCRIBE TABLE EXTENDED 语 
句 来 查看 下 内 部 的 实际 变化 情况 。 首先 ， 我 们 将 创建 一 个 简单 的 表 ， 
然后 对 其 进行 描述 (这 里 我 们 对 输出 进行 了 格式 化 ， 实 际 上 Hive 本 身 
输出 效果 不 是 这 样 ) ( 译 者 注 : es Hive v0.10.0 开 始 
和 输出 也 将 是 部 分 格式 化 的 ， 和 当前 的 输出 效果 还 是 有 郑 
EP 


hive> create table text (x int) ; 
hive> describe extended text; 

OK 

x int 


Detailed Table Information 

Table(tableName:text, dbName:default, owner:edward, createTime:1337814583, 

lastAccessTime:0, retention:0, 

sd:StorageDescriptor( 
cols: [Fieldschema(name:x, type:int, comment:null)], 
location:file:/user/hive/warehouse/text, 
inputFormat:org.apache.hadoop.mapred.TextInputFormat, 


outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, 

compressed:false, 

numBuckets:-1, 

SerdeInfo:SerDeInfo( 
name:null, 
serializationLib:org.apache.hadoop.hive.serde2.]lazy.LazySimpleSerDe, 
parameters:{serialization.format=1} 

), 

bucketCols:[], sortCols:[], parameters:{}), partitionKeys:[], 

parameters:{transient_lastDdlTime=1337814583}，, 

viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_ TABLE 


现在 我 们 再 使 用 STORED AS SEQUENCEFILE 语句 创建 一 张 表 ， 
必 守 对 


hive> CREATE TABLE seq (x int) STORED AS SEQUENCEFILE; 
hive> DESCRIBE EXTENDED seq; 

OK 

x int 


Detailed Table Information 
Table(tableName:seq, dbName:default, owner:edward, createTime:1337814571, 
lastAccessTime:0, retention:0, 
sd:StorageDescriptor( 
cols: [Fieldschema(name:x, type:int, comment:null)], 
location:file:/user/hive/warehouse/seq, 


inputFormat:org.apache.hadoop.mapred.SequenceFileInputFormat, 
outputFormat:org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat, 
compressed:false, numBuckets:-1, 
SerdeInfo:SerDeInfo( 
name:null, 
serializationLib:org.apache.hadoop.hive.serde2.]1lazy.LazySimpleSerDe, 
parameters:{serialization.format=1} 


了 
bucketCols:[], sortCols:[], parameters:{}), partitionKeys:[], 
parameters:{transient_lastDdlTime=1337814571}, 
viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_ TABLE 


Time taken: 0.107 seconds 


除非 被 Hive 的 强大 功能 所 迷惑 ， 否 则 很 容易 找 出 这 2 个 表 的 差异 
STORED AS SEQUENCEFILE 语 句 改变 了 InputFormat 和 OutputFormat 
的 值 : 


inputFormat:org.apache.hadoop.mapred.TextIinputFormat, 
outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, 


inputFormat:org.apache.hadoop.mapred.SequenceFileInputFormat, 
outputFormat:org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat, 


当 从 表 中 读 取 数据 时 ，Hive 会 使 用 到 InputFormat; 而 当 问 表 中 写 
入 数据 时 ， 其 会 使 用 OutputFormat 。 


InputFormat 会 从 文件 中 读 取 键 - 值 对 。 默 认 情 况 下 ，Hive 会 直 
接 包 略 掉 键 的 内 容 而 只 是 有 值 中 2 这 是 因为 键 来 目 于 
TextInputFormat， 是 表示 块 中 的 字 节 边界 的 一 个 长 整 型 数值 (其 并 
非 用 户 数据 )。 


本 章 后 面部 分 将 描述 表 元 数据 的 其 他 方面 信息 。 


15.3 ”文件 格式 


我 们 在 第 3.3 玉 “文本 文件 数据 编码 "中 讨论 过 使 用 的 最 简单 的 数据 
格式 是 文本 文件 格式 ， 可 以 任意 的 分 隔 符 进 行 分 割 。 同 时 这 也 十 默认 


的 文件 格式 ， 等 价 于 在 创建 表 时 通过 STORED AS TEXTFILE 语 句 指 定 
使 用 文本 存储 格式 。 


文本 文件 格式 便于 和 其 他 工具 (如 Pig，Unixt 文本 工具 中 的 
grep、sed 和 awk 等 ) 共享 数据 。 同 时 文本 文件 也 便于 查看 和 编辑 。 不 
过 ， 相 对 于 二 进 制 文件 ， 文 本 文件 存储 空间 要 大 。 正 如 在 第 11 章 中 我 
们 讨论 过 的 ， 可 以 使 用 压缩 ， 但 是 如 果 使 用 二 进 制 文件 存储 格式 的 
话 ， 则 既 可 以 节约 存储 空间 ， 也 可 以 提高 IO 性 能 。 


15.3.1 SequenceFile 


其 中 一 种 存储 格式 是 SequenceFile 文 件 存储 格式 ， 在 定义 表 结 构 时 
可 以 通过 STORED AS SEQUENCEFILE 语 名 指定 。 


SequenceFile 文 件 是 含有 键 - 值 对 的 二 进 制 文 件 。 当 Hive 将 查询 转 
人 对 于 指定 的 记录 ， 其 取决 使 用 哪些 合适 的 键 - 
次 O 


SequenceFile 是 Hadoop 本 吴 束 可 以 文 持 的 一 种 标准 文件 格式 ， 
为 它 也 是 在 Hive 和 其 他 Hadoop 相 关 的 工具 中 共享 文件 的 可 以 接受 的 选 
择 。 而 对 于 Hadoop 生 态 系统 之 外 的 其 他 工具 而 言 ， 其 并 不 适合 使 用 。 
正如 我 们 在 第 11 划 中 讨论 过 的 ，SequenceFile 可 以 在 块 级 别 和 记录 级 别 
进行 压缩 ， 这 对 于 优化 磁盘 利用 率 和 1/O 来 说 非常 有 意义 。 同 时 仍然 可 
以 支持 按照 块 级 别 的 文件 分 割 ， 以 方便 并 行 处 理 。 


Hive 所 文 持 的 男 一 种 高 效 二 进 制 文件 格式 开 古 RCFile 。 


15.3.2 RCfile 


大 多 数 的 Hadoop 和 Hive 存 储 都 是 行 式 存储 的 ， 在 大 多 数 场景 下 ， 
这 是 比较 高 将 的 。 这 种 高 将 归根 于 如 下 几 个 原因 : 大 多 数 的 表 具 有 的 
字段 个 数 都 不 大 (一 般 就 1 到 20 个 字段 ); 对 文件 按 块 进行 压缩 对 于 需 
要 处 理 重复 数据 的 情况 比较 高 效 ， 同 时 很 多 的 处 理 和 调试 工具 (例如 
more、head、awk) 都 可 以 很 好 地 应 用 于 行 式 存 储 的 数据 。 


并 非 所 有 的 工具 和 数据 存储 都 征 采 用 行 式 存储 的 方式 的 ， 对 于 特 
定 类 型 的 数据 和 应 用 来 说 ， 采 用 列 式 存储 有 时 会 更 好 。 例 如 ， 如 采 指 
定 的 表 具 有 成 百 上 千 个 字段 ， 而 大 多 数 的 查询 只 需要 使 用 到 其 中 的 一 


小 部 分 字段 ， 这 时 扫描 所 有 的 行 而 过 滤 掉 大 部 分 的 数据 显然 站 个 肖 
费 。 然 而 ， 如 果 数 据 是 按照 列 而 不 是 行进 行 存储 的 话 ， 那 么 只 要 对 其 
需要 的 列 的 数据 进行 扫 拉 束 可 以 了 ， 这 样 可 以 提高 性 能 。 


对 于 列 式 存储 而 言 ， 进 行 压缩 通常 会 非常 高 效 ， 特 别 钙 在 这 列 的 
数据 具有 较 低 计数 的 时 候 (只 有 很 少 的 排 重 值 时 ， 。 同时， 一 些 列 式 
存储 并 不 需要 物理 存储 null 值 的 列 。 


基于 这 些 场景 ，Hive 中 才 设 计 了 RCFile 。 
尽管 本 书 提供 了 非常 有 价值 的 信息 资源 ， 但 是 有 时 查找 信息 的 最 


好 方式 还 是 查看 源 代 码 本 号 。 关 于 Hive 中 的 像 RCEFile 这 样 的 列 式 存储 
征 如 何 工 作 的 最 好 的 描述 可 以 在 源 代码 中 看 到 ; 


cd hive-trunk 
find . -name "RCFile*" 
vi ./ql/src/java/org/apache/hadoop/hive/ql/io/RCFile.java 
* <p> 
* RCFile stores columns of a table in a record columnar way. It first 


* partitions rows horizontally into row splits. and then it vertically 

* partitions each row split in a columnar way. RCFile first stores the meta 

* data of a row split, as the key part of a record, and all the data of a row 
* split as the value part. 

* </p> 


Hive 功 能 强大 的 一 个 方面 体现 在 在 不 同 的 存储 格式 间 转 换 数据 非 
常 地 简单 。 存 储 信息 存放 在 了 表 的 元 数据 信息 中 。 当 对 表 执 行 一 个 
SELECT 查询 时 ， 以 及 回 其 他 表 中 执行 INSERT 操 作 时 ，Hive 就 会 使 用 
这 个 表 的 元 数据 信息 中 提供 的 内 容 ， 然 后 自动 执行 转换 过 程 。 这 样 使 
人 


可 以 在 创建 表 时 使 用 ColumnarSerDe、RCFileInputFormat 和 
RCFileOutputFormat: 


hive> select * from a; 
OK 
4 5 
3 2 
Time taken: 0.336 seconds 
hive> create table columnTable (key int , value int) 
> ROW FORMAT SERDE 
> 'org.apache.hadoop.hive.serde2.columnar .ColumnarSerDe' 
> STORED AS 
> INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat' 


> OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'; 


hive> FROM a INSERT OVERWRITE TABLE columnTable SELECT a.col1, a.col2; 


不 可 以 使 用 通常 可 以 打开 SequenceFile 的 工具 来 打开 RCFile。 不 
过 ，Hive 提 供 了 一 个 rcfilecat 工 具 来 展示 RCFile 文 件 内 容 : 
$ bin/hadoop dfs -text /user/hive/warehouse/columntable/000000 0 


text: java.io.IOException: WritableName can't load class: 
org.apache.hadoop.hive.ql.io.RCFile$KeyBuffer 


$ bin/hive --service rcfilecat /user/hive/warehouse/columntable/000000_ 0 
4 5 
3 2 


15.3.3 ”示例 自 定义 输入 格式 : DualInputFormat 


很 多 种 数据 库 允 许 用 户 执行 没有 FROM 语句 的 SELECT 语句 。 这 可 
用 于 执行 简单 的 计算 过 程 ， 例 如 SELECT 1+2。 如 果 Hive 不 允许 执行 
这 种 类 型 的 查询 的 话 ， 那 么 其 实 可 以 通过 从 某 个 存在 的 标准 中 选取 数 
据 ， 然 后 将 结果 限制 到 一 行 ， 来 达到 同样 的 效果 ; 或 者 用 户 可 以 创建 
一 个 只 有 一 行 数据 的 表 。 一 些 数据 库 提 供 了 一 个 名 为 dual 的 表 ， 其 只 
有 一 行 数据 ， 用 来 满足 这 种 使 用 场景 。 


默认 情况 下 ， 标 准 的 Hive 表 使 用 的 输入 格式 是 TextInputFormat 。 
TextInputFormat 会 对 输入 的 零 个 或 多 个 划分 进行 计算 。 这 个 框架 可 以 
打开 这 些 划分 文件 ， 然 后 使 用 一 个 RecordReader 来 读 取 划 分 中 的 数 
据 。 文 本 中 每 一 行 都 会 成 为 一 条 输入 记录 。 为 了 创建 一 个 适用 于 dual 
表 的 输入 格式 ， 我 们 需要 创建 一 个 输入 格式 ， 要 求 其 只 会 返回 一 个 只 
有 一 行 数据 的 划分 ， 而 不 管 输入 路 径 是 什么 (11。 


在 下 面 这 个 例子 中 ，DualInputFormat 只 会 返回 一 个 划分 : 


public class DualInputFormat implements InputFormat{ 
public InputSplit[] getSplits(JobConf jc, int i) throws IOException { 


InputSplit [] splits = new DualInputSplit[1]; 
splits[0]= new DualInputSplit(); 
return splits; 

} 

public RecordReader<Text, Text> getRecordReader(InputSplit split, JobConf jc, 

Reporter rprtr) throws IOException { 

return new DualRecordReader(jc, split); 

} 

} 


下 面 这 个 例子 中 划分 只 有 一 行 数据 。 不 需要 进行 序列 化 或 反 序 列 
化 操作 : 


public class DualIinputSplit implements InputSplit { 
public long getLength() throws IOException { 
return 1; 


public String[] getLocations() throws IOException { 
return new String [] { "localhost" }; 


} 
public void write(DataOutput d) throws IOException { 


} 
public void readFields(DataInput di) throws IOException { 


} 


DualRecordReader 中 有 一 个 布尔 值 变 量 hasNext。 当 第 1 次 调用 next 
0 函数 后 ， 其 值 就 设置 成 了 false。 因 此 ， 这 个 记录 读 取 需 返回 唯一 
行 ， 然 后 就 结束 了 : 


public class DualRecordReader implements RecordReader<Text,Text>{ 
boolean hasNext=true; 
public DualRecordReader(JobConf jc, InputSplit s) { 


} 
public DualRecordReader(){ 


} 
public long getPos() throws IOException { 
return 09; 


} 


public void close() throws IOException f{ 


public float getProgress() throws IOException { 
if (hasNext) 
return 0.0f' 
else 
return 1.0f; 


public Text createKkey() { 
return new Text(""); 


public Text createValue() { 
return new Text(""); 


public boolean next(Text k, Text v) throws IOException { 
If (hasNext){ 
hasNext=false ， 
return true 
} else { 
return hasNext ， 


下 面 我 们 创建 一 个 使 用 DualInputFormat 输 入 格式 和 默认 的 
HivelgnoreKey TextOutPutFormat 输 出 格式 的 表 ， 然 后 从 这 个 表 中 选取 
下 数据 ， 看 其 是 否 只 访问 一 个 空 行 。 和 输入 格式 的 jar 包 需要 包含 在 
HADOOP 的 lib 目 录 下 或 者 放置 在 Hive 的 auxlib 目 录 下 。 


client.execute("add jar dual.jar"); 
client.execute("create table dual (fake string) "+ 
"STORED AS INPUTFORMAT "com.m6d.dualinputformat ,DualInputFormat ' "+ 
"OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutput Format'"); 
client.execute("select count(1) as cnt from dual"); 


String row = client.fetchone(); 
assertEquals("1", row); 
client.execute("select * from dual"); 
row = client.fetchone(); 
assertEquals( "", row); 


15.4 ”记录 格式 : SerDe 


SerDe 是 序列 化 / 反 序列 化 的 简写 形式 。 一 个 SerDe 包 含 了 将 一 条 记 
录 的 非 结 构 化 字 节 〈 它 是 文件 存储 的 一 部 分 ) 转化 成 Hive 可 以 使 用 的 
一 条 记录 的 过 程 。 可 以 使 用 Java 来 实现 SerDe。Hive 本 号 目 珊 了 几 个 内 
置 的 SerDe， 还 有 其 他 一 些 第 三 方 的 SerDe 可 供 选 择 使 用 。 


在 内 部 ，Hive 引 警 使 用 定义 的 InputFormat 来 读 取 一 行 数据 记录 。 
这 行 记录 之 后 会 被 传递 给 SerDe.deserialize() 方 法 进行 处 理 。 


简单 的 SerDe 除 非 需要 特定 的 属性 时 才 会 完整 地 实例 化 某 个 对 象 。 


下 面 这 个 例子 使 用 一 个 RegexSerDe 来 处 理 标准 格式 的 Apache Web 
日 志 。 这 个 RegexSerDe 是 作为 Hive 分 文 的 标准 功能 来 使 用 的 : 


CREATE TABLE Serde_regex( 
host STRING, 
identity STRING, 
user STRING, 
time STRING, 
request STRING, 
status STRING, 
size STRING, 
referer STRING, 
agent STRING) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' 
WITH SERDEPROPERTIES ( 
"input.regex"” = "([^ 1™) (I 1*) (~ 1*) (IAA 、]) 
([^、\] [IAA ) (-1[0-9]*) (-1[0-9]™*)(?: (LA IAA 
([ 人 ^ MN"EAN]*\"))?", 


"output .format .String"” = "%1$S %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$S" 


) 
STORED AS TEXTFILE; 


现在 我 们 可 以 载 入 数据 ， 然 后 查询 看 看 了 : 


hive> LOAD DATA LOCAL INPATH "../data/files/apache.access.]1og" INTO TABLE 
Serde_regex 
hive> LOAD DATA LOCAL INPATH "../data/files/apache.access.2.10g" INTO TABLE 


Serde_regex 


hive> SELECT * FROM Serde_regex ORDER BY time; 


(为 便于 展示 ， 这 里 有 调整 正则 表达 式 的 显示 ) 


15.5 CSV 和 TSV SerDe 


那么 CSV 〈 喜 号 分 隅 值 ) 和 TSV ( 回 车 键 分 隔 符 ) 文件 呢 ? 当 
然 ， 对 于 如 数值 数据 的 简单 数据 来 说 ， 就 和 我 们 前 面 看 到 的 一 样 ， 用 
只 需要 使 用 默认 的 文件 格式 并 制定 字段 分 隅 符 即 可 。 不 过 ， 这 种 简 
单 的 处 理 方式 既 无 法 处 理 字符 串 中 自身 包含 逗号 或 回 车 键 的 情况 ， 也 
无 法 处 理 其 他 常见 的 转换 ， 例 如 ， 是 否 对 字符 串 都 加 引号 或 不 加 引 
号 ， 或 者 每 个 文件 的 第 一 行 是 否 需 要 显示 “ 列 名 数据 头 ”。 


首先 ， 如 果 有 列 名 数据 头 的 话 ， 那 么 通常 将 这 行 数据 移 除 也 是 可 
以 的 。 这 样 有 多 种 第 三 方 SerDe 来 处 理 CSV 或 者 TSV 文 件 。 对 于 CSV 文 
件 来 说 ， 可 以 考虑 使 用 CSVSerDe: 


ADD JAR /path/to/csv-serde.jar,; 


CREATE TABLE stocks(ymd STRING, ...) 

ROW FORMAT SERDE 'com.bizo.hive.serde.csv.CSVSerde' 
STORED AS TEXTFILE 
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尽管 支持 TSV 应 该 是 与 CSV 类 似 的 ， 但 是 在 写本 书 时 还 没有 合适 
的 第 三 方 TSV SerDe 可 供 使 用 。 


15.6 ObjectInspector 


在 外 壳 的 下 面 ，Hive 使 用 一 个 名 为 ObjectInspector 的 检查 需 来 将 记 
录 转 换 成 Hive 可 以 访问 的 对 象 。 


15.7 Thing Big Hive Reflection ObjectInspector 


Think Big Analytics 创建 了 一 个 名 为 BeansStructObjectInspector 的 
基于 Java 反 射 机 制 的 ObjectInspector。 使 用 JavaBean 模 型 的 反射 机 制 ， 
任何 对 象 的 “属性 ”信息 都 可 以 通过 get 方 法 获得 ， 或 者 作为 public 成 员 
变量 在 查询 中 进行 引用 。 


下 面 是 个 介绍 如 何 使 用 BeansStructObjectInspector 的 例子 : 


public class SampleDeserializer implements Deserializer { 
@Override 
public ObjectInspector getObjectInspector() throws SerDeException { 


return BeansSstructObjectIinspector.getBeansObjectIinspector(YourObject. class); 


} 


} 


15.8 入 ML UDF 


XML 天 生 就 是 非 结构 化 的 ， 这 使 得 Hive 成 为 XML 处 理 的 一 个 强大 
的 数据 库 平 台 。 众 多 原因 之 一 就 是 大 型 XML 文档 解析 和 处 理 所 需 要 的 
复杂 性 和 资源 消耗 使 得 Hadoop 非 常 适 合作 为 一 个 XML 数据 库 平 台 ， 
为 Hadoop 可 以 并 行 地 处 理 XMEL 文 档 ，Hive 也 成 为 了 解决 XML 相关 数 
据 的 完美 工具 。 此 外 ，HiveQL 原 生 就 支持 访问 XML 的 磐 套 元 素 和 值 ， 
然后 进一步 地 ， 可 以 允许 对 棚 套 的 字段 、 值 和 属性 进行 连接 操作 。 


XPath (XML 路 径 语言 ) 是 一 个 由 W3C 创 建 的 用 于 定位 XML 文 档 
指定 内 容 的 全 球 性 的 标准 。 使 用 XPath 作 为 XML 查 询 语言 的 话 Hive 可 
以 从 XML 中 提取 数据 并 进入 Hive 系 统 中 进行 其 他 处 理 ， 这 使 得 Hive 对 
于 XML 处 理 显得 极其 有 用 。 


XPath 将 XML 文档 建 模 成 一 个 节点 树 。 并 提供 了 访问 如 字符 串 、 
数值 和 布尔 型 等 基本 数据 类 型 的 功能 。 


尽管 如 Oracle XML DB 和 MarkLogic 等 商业 解决 方案 都 提供 了 原生 


的 XML 数据 库 解 决 方案 ， 但 作为 开源 软件 的 Hive 利 用 Hadoop 的 PB 级 
别 的 并 行 处 理 架 构 给 更 广泛 高 效 的 XML 数据 库 市 来 了 更 多 的 生气 。 


15.9 XPath 相关 的 函数 


Hive 中 包含 有 一 些 从 Hive 0.6.0 发 行 版 中 引入 的 XPath 相关 的 UDF 
( 见 表 15-1) 


表 15-1 XPath 相 关 的 UDF 


UDF 名 称 


ath 


器 Hive 中 的 一 和 


xpath_boolean 返回 一 个 布尔 值 


Ca mo | 可 一个 汉 精 庆 评 上 人 


下 面 的 例子 展示 的 是 对 于 负数 字符 串 使 用 这 些 丽 数 的 情况 : 


hive> SELECT xpath(\'<a><b Id="foo">b1</b><b id="bar">b2</b></a>\',\'//Q@id\') 
> FROM src LIMIT 工 ; 
[foo", "bar] 


hive> SELECT xpath (\'<a><b class="bb">b1i</b><b>b2</b><b>b3</b><c class= 


"bb">ci</c> 


<c>c2</c></a>\', \'a/*[@class="bb"]/text()\') 
> FROM src LIMIT 工 ; 
[b1", "c1] 


(为 排版 好 看 ， 所 以 将 例子 中 长 长 的 XML 字 符 串 进 行 了 转行 。) 


hive> SELECT xpath_double (\'<a><b>2</b><c>4</c></a>\', \'a/b + a/c\') 
> FROM src LIMIT 工 ; 
6.0 


15.10 JSON SerDe 


如 果 用 户 想 使 用 Hive 查 询 JSON 格 式 的 数据 ， 那 该 怎么 办 呢 ? 如 果 
每 行 都 只 有 一 个 JSON“ 文 件 ” 的 话 ， 那 么 用 户 可 以 使 用 TEXTFILE 作 为 
输入 输出 文件 格式 ， 然 后 使 用 一 个 JSON 的 SerDe 来 将 JSON 文 档 作 为 一 
条 记录 进行 解析 。 


有 一 个 第 三 方 的 JSON SerDe， 其 是 在 一 个 Google“ 编 程 夏令 营 * 项 
目 中 开局 的 ， 随 后 被 其 他 的 社区 贡献 者 克隆 和 开启 新 的 分 文 。Think 
Big Analytics 也 创建 了 自己 的 分 支 并 增加 了 增强 功能 ， 后 面 我 们 将 进行 


讨论 。 


在 下 面 例子 中 ， 这 个 SerDe 用 于 从 JSON 数 据 中 抽取 出 一 些 域 ， 这 
些 数 据 假设 古来 目 某 个 信息 系统 的 。 并 非 要 解析 出 JSON 中 所 有 的 子 
段 。 而 那些 解析 出 来 的 字段 都 将 作为 表 的 字段 : 


CREATE EXTERNAL TABLE messages ( 
msg_id BIGINT, 
tstamp STRING, 
text STRING, 
user_id BIGINT, 
user_name STRING 


ROW FORMAT SERDE "org.apache.hadoop.hive.contrib.serde2.JsonSerde" 
WITH SERDEPROPERTIES ( 

"msg_id"="$., id", 

"tstamp"="$.created at", 

"text"="$. text", 

"user_id"="$.Uuser.id", 

"UsSer_name"="$.Uuser.name" 


) 
LOCATION '/data/messages'; 


上 面 语句 中 的 WITH SERDEPROPERTIES 是 Hive 提 供 的 一 个 功 
能 ， 人 允许 用 户 定义 一 些 可 以 传递 给 SerDe 的 属性 信息 。 在 合适 的 情况 下 
SerDe 可 以 读 取 这 些 属性 。Hive 本 身 并 不 关心 这 些 属性 表达 什么 含义 。 


在 本 例 中 ， 这 些 属 性 用 于 将 JSON 文 档 和 表 的 字段 对 应 起 来 。 像 
$.user.id 这 样 的 字符 串 表 示 获 取 每 条 记录 ， 用 4 来 表示 ， 然 后 查找 user 


的 键 。 本 例 中 也 就 是 假定 其 是 一 个 JSON map， 节 后 解析 出 user 中 id 键 
所 对 应 的 值 。 这 里 id 键 所 对 应 的 值 将 对 应 于 表 中 的 user_id 字 段 。 


一 旦 定义 好 之 后 ， 那 么 用 户 就 可 以 像 通常 一 样 执行 查询 ， 根 本 不 
用 关心 查询 是 如 何 从 JSON 中 获取 数据 的 ! 


15.11 Avro Hive SerDe 

Avro 是 一 个 序列 化 系统 ， 其 主要 特点 是 它 是 一 个 进化 的 模式 驱动 
的 二 进 制 数据 存储 模式 。 开 始 的 时 候 ，Avro 的 目标 和 Hive 的 目标 可 能 
是 冲突 的 ， 因 为 它们 都 期 望 提 供 模 式 或 者 元 数据 信息 。 不 过 Hive 和 
A 可 揪 拔 的 设计 ， 因 此 可 以 支持 Avro 对 模式 的 推 

Hive 中 的 Avro SerDe 是 由 LinkedIn 创 建 的 ， 其 提供 如 下 功能 。 

@ 从 Avro 模式 中 推断 出 对 应 的 Hive 表 的 模式 。 


@ 在 一 个 表 中 而 不 是 一 个 指定 的 模式 中 读 取 所 有 的 Avro 文件 ， 这 
得 益 于 Avro 的 可 逆 兼 容 性 。 


@ 文 持 结构 租 僚 模式 。 

@ 可 以 将 所 有 的 Avro 数据 类 型 转换 成 等 价 的 Hive 类 型 。 大 多 数 的 
类 型 可 以 精确 映射 ， 但 是 一 些 Avro 类 型 在 Hive 中 并 不 存在 的 话 ， 那 么 
将 由 Hive 通 过 Avro 目 动 进行 转换 。 

@ 可 以 解析 压缩 的 Avro 文件 。 


© 显 式 地 通过 Union[T，null] 语 句 将 Avro 中 可 以 表示 为 null 的 类 型 
转化 成 T， 并 在 合适 的 情况 下 返回 null 。 


@ 可 以 将 任意 的 Hive 表 写成 Avro 文件 。 
15.11.1 使 用 表 属 性 信息 定义 Avro Schema 


如 下 语句 通过 指定 AvroSerDe、AvroContainerInputFormat 和 
AvroContainerOutput Format 创 建 了 一 个 Arvo 表 。Arvo 具 有 其 目 寻 的 模 
式 定 义 语言 。 这 个 模式 定义 语言 可 以 使 用 属性 avro.schema. literal 以 字 
符 串 的 形式 存储 在 表 的 属性 信息 中 。 模 式 中 指定 了 3 个 字段 : int 类 型 
的 number 、string 类 型 的 firstname 和 string 类 型 的 lastname。 


CREATE TABLE doctors 

ROW FORMAT 

SERDE 'org.apache.hadoop,.hive,Sserde2.avro,AvroSerDe ' 

STORED AS 

INPUTFORMAT "org,apache.hadoop.hive,dq1.1o,.avro.AvrocontainerInputFormat 


OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat' 
TBLPROPERTIES ('avro.schema.literal'="{ 
"namespace": "testing.hive.avro.serde", 
"name": "doctors", 
"type": "record", 
"fields": [ 
{ 
"name":"number™", 
"type" "int", 
"doc":"Order of playing the role" 
外 
{ 
"name":"first_name", 
"type":"string", 
"doc":"first name of actor playing role" 


}, 


"name":"last_name", 
"type":"string", 
"doc":"last name of actor playing role" 


当 使 用 DESCRIBE 命 令 执行 查看 时 ，Hive 就 会 显示 出 这 3 个 字段 的 
名 称 和 类 型 。 从 下 面 的 输出 信息 中 我 们 可 以 看 到 输出 信息 中 的 第 3 列 显 
示 字 段 是 来 目 反 序列 化 的 。 这 表明 是 SerDe 上 自己 从 字段 中 返回 的 信息 ， 
而 不 是 存在 于 元 数据 存储 中 的 静态 数据 : 


hive> DESCRIBE doctors,; 
number int from deserializer 


first_name string from deserializer 
lJast_name string from deserializer 


15.11.2 ”从 指定 URL 中 定义 Schema 


同样 可 以 以 URL 的 方式 提供 模式 。 可 以 是 HDFS 中 某 个 文件 的 路 
径 或 者 是 指向 HTTP 服 务 丹 的 一 个 链接 。 通 角 可 以 在 表 属 性 中 设置 
avro.Schema.url 的 值 ， 同 时 不 设置 avro.schema.literal 的 值 。 


模式 可 以 是 HDFS 中 的 一 个 文件 : 


TBLPROPERTIES ('avro.schema.url'="'hdfs://hadoop:9020/path/to.schema') 
模式 同样 可 以 存储 在 HTTP 服 务 器 上 : 


TBLPROPERTIES ('avro.schema.url'='http://site.com/path/to.schema') 


15.11.3 ”进化 的 模式 


随 看 时 间 的 推移 可 能 会 为 数据 集 增 加 字段 或 者 从 数据 集中 减少 一 
些 字段 。Avro 的 设计 中 有 考虑 到 这 个 情况 。 进 化 的 模式 是 值 随 厦 时 间 
而 发 生 改变 的 模式 。Avro 人 允许 字段 是 null。 其 同样 允许 如 果 数 据 文件 
中 没有 定义 字段 的 话 束 返回 指定 的 缺 省 值 。 


例如 ， 如 果 Avro 模 式 发 生 了 改变 ， 并 增加 了 一 个 字段 ， 那 么 在 
0 个 值 ， 如 采 没 有 找到 这 个 新 增 列 就 返回 这 个 


"default":"fishfingers and custard" 


15.12 “二进制 输出 


这 里 有 多 种 二 进 制 输出 。 我 们 已 经 看 过 文件 压缩 、sequence 文 件 
(压缩 的 或 没有 压缩 的 ) 以 及 相关 的 文件 类 型 。 


有 时， 很 有 必要 读 取 和 写 入 子 节 流 。 例 如 ， 用 户 可 能 有 工具 期 望 
获取 字 下 流 ， 而 无 需 任何 类 型 的 字段 分 隔 符 ， 而 且 用 户 既 希望 使 用 
Hive 来 为 这 些 工 具 生 成 合适 的 文件 ， 又 布 望 通过 Hive 来 查询 这 些 文 
件 。 用 户 可 能 也 希望 使 用 简洁 的 二 进 制 格式 存储 数值 而 不 是 使 用 


像 <5034223，” 这 样 的 需要 更 多 存储 空间 的 字符 串 来 进行 存储 。 一 个 党 
用 的 例子 就 是 查询 tcpdump 命 令 的 输出 来 分 析 网 络 行为 。 


下 面 的 表 期 望 目 己 的 文件 是 文本 文件 格式 的 ， 但 是 其 可 以 将 查询 
结 打 按 二 进 制 数据 流 方式 进行 号 操作 : 


CREATE TABLE binary_table (num1 INT, num2 INT) 
ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.1lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ('serialization.last.column.takes.rest'='true') 


STORED AS 
INPUTFORMAT ‘org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT ‘org.apache.hadoop.hive.ql.io.HiveBinaryOutputFormat'; 


下 面 是 个 SELECT TRANSFORM 查 询 的 例子 ， 其 从 表 src 中 读 取 二 
进 制 数据 流 ， 然 后 直接 将 数据 流传 递 给 shell 命 令 cat， 最 后 将 结果 履 
盖 ， 写 入 到 表 destination1 中 : 


INSERT OVERWRITE TABLE destinationi 
SELECT TRANSFORM(* ) 
USING 'cat' AS mydata STRING 


ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ('serialization.last.column.takes.rest'='true') 
RECORDREADER 'org.apache.hadoop.hive.ql.exec.BinaryRecordReader' 

FROM src; 


[1] 可 以 通过 如 下 链接 获取 到 DualInputFormat 的 源码 : 
https://github.com/edwardcapriolo/DualInputFormat ° 


第 16 章 ”Hive 的 Thrift 服 务 


Hive 具 有 一 个 可 选 的 组 件 叫 做 HiveServer 或 者 HiveThrift， 其 允许 
通过 指定 端口 访问 Hive。Thrift 是 一 个 软件 框 狠 ， 其 用 于 路 语言 的 服务 
开发 。 关 于 Thrift， 可 以 通过 链接 http:/thrift.apache.org/ 获得 更 详细 的 
介绍 。Thrift 允 许 客 户 端 使 用 包括 Java、C++、Ruby 和 其 他 很 多 种 语 
言 ， 通 过 编程 的 方式 远程 访问 Hive 。 


访问 Hive 的 最 常用 的 方式 就是 通过 CLI 进 行 访问 。 不 过 ，CLI 的 设 
计 使 其 不 便于 通过 编程 的 方式 进行 访问 。CLI 是 胖 客户 端 ， 其 需要 本 
地 具有 所 有 的 Hive 组 件 ， 包 括 配 置 ， 同 时 还 需要 一 个 Hadoop 客 户 端 及 
其 配置 。 同 时 ， 其 可 作为 HDFS 客 户 端 、MapReduce 客 户 端 以 及 JDBC 
客户 端 (用 于 访问 元 数据 库 ) 进行 使 用 。 即 使 客户 端 安装 是 成 功 的 ， 
但 是 配置 所 有 的 网 络 访问 还 是 会 比较 困难 的 ， 特 别 是 对 于 不 同 网 段 或 
跨 数 据 中 心 的 情况 。 


16.1 ”启动 Thrift Server 


如 果 想 启用 HiveServer， 可 以 在 后 台 启 动 执 行 这 个 Hive 服 务 : 


$ cd $HIVE_ HOME 
$ bin/hive --service hiveserver & 
Starting Hive Thrift Server 


检查 HiveServer 是 否 启动 成 功 的 最 快捷 方法 束 是 使 用 netstat 命 令 查 
看 10，000 端 口 是 否 打开 并 监听 连接 : 


$ _ netstat -nl | grep 10000 


tcp 0 0 :::10000 HH LISTEN 


(为 排版 方便 ， 上 面 例子 中 去 除 挥 了 一 些 空格 。) 正如 前 面 所 提 
到 过 的 ，HiveServer 使 用 Thrift 提 供 服 务 。Thrift 提 供 了 一 个 接口 语言 。 
通过 这 些 接口 ，Thrift 编 译 器 可 以 产生 创建 网 络 RPC 的 多 种 程序 语言 的 
客户 端的 代码 。 因 为 Hive 是 使 用 Java 编 写 的 ， 而 且 Java 的 字 节 码 是 跨 平 
台 的 ，Thrift 服 务 的 客户 端 包 含 在 了 Hive 发 行 版 中 。 使 用 这 些 客户 端的 


方式 就 是 在 IDE 中 开启 一 个 Java 工 程 ， 然 后 载 入 这 些 库 ， 或 者 通过 
Maven 获 取 这 些 库 。 


16.2 ”配置 Groovy 使 用 HiveServer 


为 了 讲解 这 个 例子 ， 我 们 将 先 对 使 用 到 Groovy 进 行 介绍 。Groovy 

是 一 个 对 于 Java 虚 拟 机 来 说 敏捷 的 动态 的 程序 语言 。 Groovy 是 进行 原 

型 设计 的 理想 选择 ， 因 为 其 很 好 地 兼容 Java， 并 提供 了 一 个 所 见 即 所 
得 的 (REPL) 的 编码 过 程 : 


$ curl -o http://dist.groovy.codehaus.org/distributions/groovy-binary- 1.8.6.zip 


$ unzip groovy-binary-1.8.6.zip 


下 载 好 压缩 包 后 ， 通 过 修改 groovy-starter.conf 文 件 ， 将 所 有 的 
Hive JAR 文 件 加 入 到 Groovy 的 classpath 路 径 中 。 这 将 允许 Groovy 直 接 
和 Hive 进 行 交 互 而 无 需 人 为 地 在 每 个 会 话 中 载 入 相关 的 JAR 文 件 。 


# load required libraries 
load !{groovy.home}/1lib/*.jar 


# load user specific libraries 
load !{user.home}/.groovy/l1ib/*.jar 


# tools.jar for ant tasks 
load ${tools.jar} 


load /home/edward/hadoop/hadoop-0.20.2_ local/*.jar 
load /home/edward/hadoop/hadoop-0.20.2_local/lib/*.jar 
load /home/edward/hive-0.9.0/1ib/*.jar 


必 ”提示 


Groovy 有 一 个 @grab 标 注 ， 用 于 从 Maven 网 站 库 中 获取 到 JAR 
本 目前 为 止 Hive 的 一 些 打 包 问 题 使 得 这 种 方式 无 法 正 
常 工作 。 


Groovy 在 分 支 版 本 中 提供 了 bin/groovysh 这 个 shell 脚 本 。 这 个 脚本 
提供 了 一 个 REPL 用 于 交互 式 编程 。Groovy 代 码 和 Java 代 码 类 似 ， 尽 管 
其 确实 有 其 他 如 终止 功能 的 形式 。 大 多 数 情况 下 ， 用 户 可 以 像 写 Java 
一 样 编写 Groovy 代 码 。 


16.3 ”连接 到 HiveServer 


从 这 个 REPL 中 ， 导 入 Hive 和 Thrift 相 关 的 类 。 这 些 类 用 于 连接 到 
Hive， 及 创建 一 个 HiveClient 实 例 。HiveClient 含 有 用 户 和 Hive 交 互 所 
需要 的 常用 方法 : 


$ $HOME/groovy/groovy-1.8.0/bin/groovysh 

Groovy Shell (1.8.0, JVM: 1.6.0_ 23) 

Type 'help' or '\h' for help. 
:000> import org.apache.hadoop.hive.service.*,; 
:000> import org.apache.thrift.protocol.*,; 


:000> import org.apache.thrift.transport.*,; 

:000> transport = new TSocket("localhost" , 10000); 
:000> protocol = new TBinaryProtocol(transport ) ， 
:000> client = new HiveClient(protocol),; 

:000> transport.open(); 

:000> client.execute("show tables"); 


16.4 获取 集群 状态 信息 


这 个 getClusterStatus 方 法 会 从 Hadoop 的 JobTracker 中 获取 信息 。 其 
可 用 于 获取 收集 监控 信息 也 可 用 于 寻找 空间 时 间 来 提交 任务 : 
groovy:000> client.getClusterStatus() 


===> HiveClusterStatus(taskTrackers:50, mapTasks:52, reduceTasks:40, 
maxMapTasks:480, maxReduceTasks:240, state:RUNNING) 


16.5 ”结果 集 模式 


在 执行 一 个 查询 后 ， 用 户 可 以 通过 getSchema0) 方 法 获取 到 结果 集 
的 schema。 如 果 用 户 在 执行 一 个 查询 前 调用 这 个 方法 的 话 ， 那 么 其 将 


退回 一 个 null schema: 


groovy:000> client ,getSchema( ) 

===> Schema(fieldSschemas:null, properties:null) 
groovy:000> client.execute("show tables"),; 

===> null 


groovy:000> client.getschema() 
===> Schema(fieldSschemas: [FieldSschema(name:tab_name, type:string, 
comment :from deserializer)], properties:null) 


16.6 ”获取 结果 


当 执 行 查询 后 ， 用 户 可 以 通过 fetchOne() 方 法 获取 到 结果 集 。 并 不 
建议 通过 Thrift 接 口 来 获取 数据 量 大 的 结果 。 不 过 ， 其 确实 提供 了 几 种 
回 指针 获取 数据 。 其 中 fetchOne(0) 方 法 用 于 获取 一 行 数 


groovy:000> client.fetchone() 
===> cookjar_small 


除了 一 次 获取 一 行 数据 这 种 方式 外 ， 还 可 以 通过 fetchALL() 方 法 
以 字符 数组 的 形式 获取 整个 结果 集 : 


groovy:000> client.fetchAll() 


===> [macetest, missing_final, one, time_ to_serve, two] 


同时 还 提供 了 fetchN 方 法 ， 其 用 于 一 次 获取 N 行 结 


16.7 ”获取 执行 计划 


执行 过 一 个 查询 之 后 ， 束 可 以 使 用 getQueryPlan() 方 法 来 获取 关于 
这 个 查询 的 状态 信息 。 信 息 内 容 包 括 计 数 右 的 信息 和 job 的 状态 信息 : 


groovy:000> client.execute("SELECT * FROM time_ to_serve"); 

===> null 

groovy:000> client.getQueryPlan() 

===> QUueryPlan(queries: [Query(queryId:hadoop_20120218180808_...-aedf367 ea2f3, 
queryType:null, queryAttributes:{queryString=SELECT * FROM time_to_serve}, 


gueryCounters:null, stageGraph:Graph(nodeType:STAGE, roots:null, 
adjacencyList:null), stageList:null, done:true, started:true)], 
done:false, started:false) 


(这 里 省 略 了 一 长 串 的 数字 。) 


16.8 ”元 数据 存储 方法 


Hive 通 过 Thrift 提 供 Hive 元 数据 存储 的 服务 。 通 党 来 说 ， 用 户 应 该 
不 能 够 直接 调用 元 数据 存储 方法 来 直接 对 元 数据 进行 修改 ， 而 应 该 通 
过 HiveQL 语 言 让 Hive 来 执行 这 样 的 操作 。 用 户 应 该 只 能 通过 利用 只 读 
方法 来 获取 表 的 元 数据 信息 。 例 如 ， 可 以 使 用 get_partition_names 
(String，String，short) 方 法 来 确认 查询 可 以 使 用 的 分 区 有 哪些 : 


groovy:000> client.get_ partition names("default", "fracture act", (short)0) 


[ hit_date=20120218/mid=001839,hit_date=20120218/mid=001842， 
hit_date=20120218/mid=001846 ] 


重要 的 是 ， 要 记 住 ， 尽 管 元 数据 存储 API 的 变化 相对 十 比较 稳定 
的 ， 但 是 ， 包 括 它 们 的 签名 和 目的 ， 在 不 同 的 发 行 版 中 都 可 能 会 变 
化 。Hive 试 图 在 HiveQL 语 言 中 保持 兼容 性 ， 这 样 对 于 这 些 级 别 的 变化 
忠 会 掩 二 控 了 。 


表 检 查 器 例子 


以 编程 的 方式 来 访问 元 数据 存储 的 能 力 提供 了 部 署 过 程 中 的 监控 
和 执行 条 件 的 能 力 。 例 如 ， 可 以 通过 编写 一 个 检查 器 来 确定 是 否 所 有 
的 表 都 使 用 了 压缩 ， 或 者 所 有 以 zz 开头 的 表 保 存 时 间 不 能 超过 10 天 。 
| 必要 的 话 ， 这 些小 的 “Hive 小 程序 ”可 以 快速 地 编写 完成 并 可 以 
远程 执行 。 


查找 非 外 部 表 的 表 


默认 情况 下 ， 管 理 表 会 在 数据 仓库 目录 下 存储 表 数 据 ， 这 个 目录 
通常 默认 为 /user/hive/warehouse。 而 通常 情况 下 ， 外 部 表 不 会 使 用 这 个 
目录 ,但 是 也 并 非 束 不 能 使 用 这 个 目录 存储 外 部 表 数 据 。 通 过 增加 一 
i 2050 0 5 目录 下 将 会 有 利于 保持 
` 境 的 清晰 。 


在 接 下 来 的 这 个 程序 中 ， 最 外 层 的 循环 对 get_all_databases() 方 法 
的 返回 结果 列表 进行 迭代 。 而 内 层 的 循环 对 get_all_tables(database) 方 
法 的 结果 列表 进行 迭代 。 方 法 get_table(data base，table) 的 返回 结果 
Table 对 象 包含 了 这 个 表 的 所 有 元 数据 信息 。 我 们 可 以 检查 表 的 存储 路 
径 和 表 的 类 型 是 否 是 MANAGED_TABLE。 外 部 表 的 表 类 型 是 
EXTERNAL。 最 终 会 返回 一 组 “不 符合 规则 的 ” 表 名 ， 用 列表 bad 表 
小 : 


public List<String> check(){ 
List<String> bad = new ArrayList<String>(); 
for (String database: client.get all databases() ){ 
for (String table: client.get all tables(database) ){ 
try { 

Table t = client.get_ table(database, table); 
URI U = new URI(t.getSd().getLocation()); 
if (t.getTableType().equals("MANAGED_ TABLE") && 


! u.getPpath().contains("/user/hive/warehouse") ){ 
System.out.println(t.getTableName() 

+ " is a non external table mounted inside /user/hive/ warehouse" ); 
bad.add(t.getTableName()); 


} catch (Exception ex){ 
System,err.printJln("Had exception but will continue " +ex); 
} 
} 


return bad; 


} 


16.9 ”管理 HiveServer 


Hive CLI 会 在 本 地 创建 如 文件 名 为 .hivehistory 这 样 的 部 件 ， 以 及 
会 在 /tmp 目 录 和 hadoop.tmp.dir 目 录 下 创建 一 些 条 目 。 因 为 HiveServer 成 
为 了 Hadoop job 开启 执行 的 地 方 ， 所 以 在 部 署 的 时 候 需 要 注意 儿 个 注 


意 事 项 。 


16.9.1 生产 环境 使 用 HiveServer 


除了 在 本 地 安装 完整 的 Hive 客 户 端 ， 还 可 以 通过 HiveServer 服 务 来 
提交 job。 不 过 如 果 在 生产 环境 下 使 用 HiveServer 的 话 ， 那 么 确实 还 需 
要 解决 一 些 额 外 的 问题 。 通 常客 户 端 机 需 需 要 进行 的 形成 执行 计划 和 
管理 task 的 工作 现在 需要 由 服务 端 来 完成 了 。 如 采用 户 同 时 执行 多 个 
客户 端的 话 ， 那 么 就 会 对 于 单个 HiveServer 造 成 太 大 的 压力 。 一 种 简 
单 的 解决 办 法 就 是 使 用 TCP 人 负载 均衡 或 者 通过 代理 的 方式 为 一 组 后 面 
的 服务 器 进行 均衡 连接 。 


有 多 种 方式 来 进行 TCP 负 载 均衡 ， 用 户 需 要 咨询 下 网 络 管理 员 寻 
求 最 好 的 解决 方案 。 我 们 建议 通过 haproxy 工 具 来 对 从 多 的 ThrfitServer 
服务 需 均 衡 和 连接 。 


首先 ， 需 要 列举 出 所 有 的 物理 ThriftServer 服 务 器 ， 并 记录 代理 对 
应 的 虚拟 服务 器 ( 见 表 16-1 和 表 16-2) 。 


表 16-1 物理 服务 器 配置 


短 域名 主机 名 和 端口 


hiveserver1.example.pvt:10000 
hiveserver2.example.pvt:10000 


表 16-2 ”代理 配置 


hiveprimary.example.pvt 10.10.10.100 


安装 ha- proxy 软 件 ( 也 束 是 HAP)。 对 于 不 同 的 操作 系统 和 分 发 版 


本 ， 安 装 步 又 可 能 有 所 不 同 。 下 面 的 例子 中 展示 的 是 RHEL/CENTOS 
J 


按照 前 面 的 清单 来 完成 配置 文件 : 


$ more /etc/haproxy/haproxy.cfg 
listen hiveprimary 10.10.10.100:10000 
balance leastconn 


mode tcp 
server hivethrift1 hiveservicei1.example.pvt:10000 check 
server hivethrift2 hiveservicei1.example.pvt:10000 check 


通过 系统 的 init 脚 本 来 启动 HAP。 一 旦 确认 可 以 正常 执行 后 ， 那 么 
束 可 以 使 用 chkconfig 命 令 将 其 加 入 到 默认 的 系统 局 动 过 程 中 : 


$ sudo /etc/init.d/haproxy start 
$ sudo chkconfig haproxy on 


16.9.2 ”清理 


Hive 提 供 了 配置 变量 hive.start.cleanup.scratchdir， 默 认 值 是 false。 
将 这 个 属性 设置 为 true 的 话 ， 那么 就 会 在 每 次 重启 HiveServer 服 务 时 清 
理 掉 临时 目录 : 


<property> 
<name>hive.start.cleanup.scratchdir</name> 
<value>true</value> 


<description>To clean up the Hive scratchdir while 
starting the Hive server</description> 
</property> 


16.10 Hive ThriftMetastore 


典型 情况 下 ，Hive 会 话 会 直接 连接 到 一 个 JDBC 数 据 库 ， 这 个 数 
据 库 用 作 元 数据 存储 数据 库 。Hive 提 供 了 一 个 可 选 的 组 件 名 为 
ThriftMetastore。 在 这 种 设置 下 ，Hive 客 户 端 会 连接 到 
ThriftMetastore， 而 且 会 和 JDBCMetastore 进 行 通 信 。 大 多 数 的 部 署 是 
不 需要 这 个 组 估 的 。 * 对 于 那些 非 Java 客 户 端 而 又 需要 获取 到 元 数据 存 
8 电 时 才 会 使 用 这 个 组 件 。 使 用 这 种 元 数据 库 服务 需要 2 个 单独 的 配 


16.10.1 ThriftMetastore 配置 


ThriftMetastore 应 该 和 实际 使 用 JDBC 的 元 数据 存储 进行 通信 ， 然 
后 再 通过 如 下 方法 启动 metastore: 


$ cd -~ 

$ bin/hive --service metastore & 
[1] 17096 

Starting Hive Metastore Server 


使 用 netstat 命 令 来 确认 元 数据 服务 局 动 并 正在 执行 : 


$ netstat -an | grep JOB 


tcp 0 0 :::9083 : LISTEN 


16.10.2 ”客户 端 配 置 
像 CLI 文 样 的 客户 端 需要 直接 和 元 数据 存储 通信 : 


<property> 
<name>hive.metastore.local</name> 


<value>false</value> 
<description>controls whether to connect to remove metastore server 
or open a new metastore server in Hive Client JVM</description> 


</property> 


<property> 
<name>hive.metastore.uris</name> 
<value>thrift://metastore_server:9083</value> 
<description>controls whether to connect to remove metastore server 
or open a new metastore server in Hive Client JVM</description> 


</property> 


这 个 变化 对 于 用 户 来 说 是 透明 的 。 不 过 ， 对 于 Hadoop 安 全 来 说 这 


里 还 是 有 细微 的 差别 ， 而 且 需 要 以 用 户 的 身份 信息 来 执行 元 数据 存储 
相关 的 操作 。 


第 17 章 ”存储 处 理 程序 和 NoSQL 


存储 处 理 程序 是 一 个 结合 InputFormat、OutputFormat、SerDe 和 
Hive 需 要 使 用 的 特定 的 代码 ， 来 将 外 部 实体 作为 标准 的 Hive 表 进行 处 
理 的 整体 。 这 样 无 论 表 是 以 文本 文件 的 方式 存储 在 Hadoop 中 ， 还 是 以 
列 族 的 方式 存储 在 如 Apache HBase、Apache Cassandra 和 Amazon 
DynamoDB 这 样 的 NoSQL 数 据 库 中 ， 用 户 都 可 以 无 颖 地 直接 执行 查 
询 ， 解 决 问 题 。 存 储 处 理 程序 不 仅 限于 NoSQL 数 据 库 ， 可 以 为 多 种 类 
别 的 数据 存储 设计 一 个 数据 存储 处 理 程序 。 


本 


本 
‘Wa 二 
4 提示 


对 于 特定 的 存储 处 理 程序 可 能 只 需 实现 其 中 的 某 些 功能 。 例 
如 ， 一 个 给 定 的 存储 处 理 程 序 可 能 允许 只 读 访 问 权 限 或 实施 其 他 


一 些 限制 。 


存储 处 理 程序 提供 了 一 个 ETL 的 人 简化 系统 。 例 如 ， 一 个 Hive 查 询 
可 以 从 一 个 sequence file 存 储 格 式 的 表 中 选取 数据 ， 也 可 以 进行 输出 。 


17.1 Storage Handler Background 


Hadoop 中 有 一 个 名 为 InputFormat 的 抽象 接口 类 ， 其 可 以 将 来 目 不 
同 源 的 数据 格式 化 成 可 以 作为 job 和 输入 的 格式 。TextInputFormat 丈 是 
InputFormat 的 一 个 具体 实现 。 其 会 提供 给 Hadoop 关 于 如 何 将 给 定 文件 
路 径 下 的 文件 分 割 成 多 个 划分 ， 然 后 分 发 给 多 个 taskj 进 行 处 理 的 信 
息 ， 而 且 还 提供 了 一 个 RecordReader 接 口 ， 该 接口 提供 了 用 于 从 每 个 
划分 中 读 取 数据 的 方法 。 


Hadoop 同 是 还 提供 了 一 个 名 为 OutputFormat 的 抽象 接口 ， 其 会 获 
取 到 一 个 job 的 输出 ， 然 后 将 这 个 输出 输入 到 一 个 实体 中 。 
TextOutputFormat 承 是 OutputFormat 的 一 个 具体 实现 。 其 可 以 持续 地 将 
结果 输入 到 一 个 存储 在 HDFS 或 本 地 文件 系统 中 的 文件 中 。 


在 Hadoop 中 输入 和 输出 是 物理 文件 的 情况 很 正常 ， 不 过 
InputFormat 和 OutputFormat 抽 象 接 口 可 被 用 于 从 其 他 数据 源 (包括 关 
系 型 数据 库 、NoSQL 存 储 (如 Casssandra) 或 HBase， 以 及 其 他 任何 可 
通过 InputFormat 或 者 OutputFormat 进 行 设计 实现 的 存储 ) 中 读 取 和 存 
放 数 据 。 


在 “HiveQL” 那 一 草 中 ， 我 们 展示 了 使 用 Java 代 人 码 编写 的 Word 
Count 的 例子 ， 然 后 展示 了 在 Hive 中 等 价 的 实现 方式 。Hive 中 的 抽象 如 
表 、 类 型 、 行 格式 以 及 其 他 元 数据 都 用 于 Hive 理 解 源 数据 。 一 旦 Hive 
了 解 了 源 数 据 的 描述 信息 ， 那 么 查询 引擎 就 可 以 使 用 鸣 悉 的 HiveQL 操 
作 符 来 处 理 数据 。 


很 多 的 NoSQL 数 据 库 都 使 用 传统 适 配 圳 实现 了 Hive 连 接 右 。 


17.2 HiveStorageHandler 


HiveStorageHandler 是 Hive 用 于 连接 如 HBase、Cassandra 等 类 似 的 
NoSQL 存 储 的 主要 接口 。 检 查 下 接口 可 以 发 现 需 要 定义 一 个 定制 的 
InputFormat、 一 个 OutputFormat 以 及 SerDe。 和 存储 处 理 程序 负责 从 的 层 
存储 子 系统 中 读 取 或 写 入 数据 。 这 就 转变 成 通过 写 SELECT 碍 询 读 取 
数据 系统 中 的 数据 ， 以 及 通过 如 reports 这 样 的 操作 将 数据 写 入 到 数据 


系统 


当 在 NoSQL 数 据 库 之 上 执行 Hive 查 询 时 ，NoSQL 系 统 的 资源 消 
耗 、 执 行 效率 要 比 常规 的 基于 HDFS 的 Hive 和 MapReduce job 要 慢 。 其 
中 一 部 分 原因 源 于 服务 器 的 socket 连 接 资 源 消耗 和 对 底层 多 个 文件 的 
合并 过 程 ， 而 从 HDFS 中 典型 的 访问 是 完全 顺序 IO， 顺序 MO 在 现代 磁 
盘 上 是 非常 快 的 。 


在 一 个 系统 整体 架构 中 将 NoSQL 数 据 库 和 Hadoop 结 合 使 用 的 一 个 
通用 技术 束 是 使 用 NoSQL 数 据 库 集群 来 进行 实时 处 理工 作 ， 而 利用 
Hadoop 集 群 进行 非 实时 面向 批 处 理 的 工作 。 如 果 NoSQL 系 统 是 主 数据 
存储 ， 而 其 数据 又 需要 通过 Hadoop 的 批 处 理 job 进行 查询 的 话 ， 批 量 导 
出 是 一 个 将 NoSQL 数 据 导 入 到 HDFS 文 件 中 的 高 效 的 方式 。 一 旦 HDFS 
中 的 文件 通过 导出 生成 后 ， 就 可 以 以 最 大 效率 执行 批 处 理 Hadoop 
job。 


17.3 HBase 
如 下 例子 展示 了 如 何 使 用 HiveQL 创 建 一 个 指向 HBase 表 的 Hive 


CREATE TABLE hbase_stocks(key INT, name STRING, price FLOAT) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 


WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,stock:val") 
TBLPROPERTIES ("hbase.table.name" = "stocks"),; 


如 果 想 创建 一 个 指 问 一 个 已 经 存在 的 HBase 表 的 Hive 表 的 话 ， 那 
么 就 必须 使 用 CREATE EXTERNAL TABLE 这 个 HiveQL 语 句 : 


CREATE EXTERNAL TABLE hbase_stocks(key INT, name STRING, price FLOAT) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 


WITH SERDEPROPERTIES ("hbase.columns.mapping" = "cf1i:val") 
TBLPROPERTIES("hbase.table.name" = "stocks"); 


对 于 一 个 指定 的 Hive 碍 询 ， 不 需要 扫描 整个 HBase 表 ， 通 过 过 滤 
下 推 裁剪 将 会 得 到 返回 给 Hive 的 行 数据 。 


可 以 进行 谓词 下 推 的 类 型 如 下 。 
©® key <20° 
©® key = 20° 
®@ key < 20， 而且 key>10。 
其 他 的 复杂 类 型 的 谓词 都 会 忽略 掉 而 不 会 启用 下 推 功 能 
下 面 是 一 个 简单 的 例子 ， 其 先 创建 了 简单 的 表 ， 然后 对 这 个 


表 进 行 的 查 询 语句 将 会 使 用 到 过 短 条 件 下 推 的 功能 需要 注意 的 是 下 
推 的 总 是 HBase 的 键 ， 而 非 列 组 中 的 列 值 。 


CREATE TABLE hbase_pushdown(key int, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf:string"); 


SELECT * FROM hbase_pushdown WHERE key = 90， 


如 下 这 个 查询 不 会 查询 下 推 ， 因 为 其 过 滤 条 件 中 包含 有 OR 操 作 
符 。 
SELECT * FROM hbase_pushdown 


WHERE key <= '80' OR key >= '100 '; 


和 HBase 结 合 使 用 的 Hive 支 持 HBase 表 和 HBase 表 的 连接 操作 ， 也 
支持 HBase 表 和 非 HBase 表 的 连接 操作 。 


”默认 情况 下 ， 下 推 优化 是 开启 的 ， 不 过 可 以 通过 如 下 命令 将 此 功 


set hive.optimize.ppd.storage=false; 


当 将 Hive 中 的 数据 导入 到 HBase 中 时 ， 需 要 注意 ，HBase 要 求 键 是 
排 重 后 唯一 的 ， 而 Hive 并 无 此 要 求 。 


下 面 是 一 些 Hive 和 HBase 列 映射 需要 注意 的 问题 。 
@ 没有 访问 HBase 行 时 间 戳 的 方式 ， 只 会 返回 最 新 版 本 的 行 。 
@ HBase 的 键 必 须 进 行 显 式 定义 。 


17.4 Cassandra 


Cassandra 已 经 采用 和 HBase 中 类 似 的 实现 方式 实现 了 
HiveStorageHandler 接 口 。 这 种 实现 方式 最 和 匈 是 在 Brisk 项 目 中 的 
Datastax 中 使 用 的 。 


这 个 模式 非常 简单 ， 一 个 Cassandra 列 族 和 一 个 Hive 表 映射 起 来 。 
同样 地 ，Cassandra 列 名 和 Hive 列 名 直接 映射 起 来 。 


17.4.1 静态 列 映射 (Static Column Mapping) 


当 用 户 指定 了 Cassandra 中 的 哪些 列 期 望 和 Hive 列 进行 映射 时 使 用 
静态 列 存储 非常 有 用 。 下 面 的 例子 中 ， 首 先 创建 了 一 个 Hive 外 部 表 ， 
其 和 一 个 已 存在 的 Cassandra 键 空间 及 列 族 相 映射 : 


CREATE EXTERNAL TABLE Weblog(useragent string, ipaddress string, timestamp string) 
STORED BY 'org.apache.hadoop.hive.cassandra.CassandraStorageHandler' 
WITH SERDEPROPERTIES ( 


"cassandra.columns.mapping" = ":key,user_agent,ip_address,time_stamp") 
TBLPROPERTIES ( 

"cassandra.range.size" = "200", 

"cassandra.slice.predicate.size" = "150" );，; 


17.4.2 为 动态 列 转 置 列 映 射 


某 些 Cassandra 使 用 场景 会 用 到 动态 列 。 这 种 使 用 场景 是 征 东 个 指定 
列 组 没有 固定 的 、 已 命名 的 列 ， 而 是 由 列 的 行 键 代 表 某 上 数据。 这 御 
用 于 时 间 序 列 数 据 ， 其 中 列 名 代表 时 间 ， 而 列 值 代 表 那 个 时 间 的 值 。 
如 果 列 名 是 已 知 的 话 ， 或 者 用 户 需 要 检索 所 有 值 时 ， 这 也 是 很 有 用 


CREATE EXTERNAL TABLE Weblog(useragent string, ipaddress string, timestamp string) 
STORED BY 'org.apache.hadoop.hive.cassandra.CassandraSstorageHandler' 
WITH SERDEPROPERTIES ( 

"cassandra.columns.mapping" = ":key, :column, :value"); 


17.4.3 Cassandra SerDe Properties 


表 17-1 中 所 介绍 的 属性 可 以 在 WITH SERDEPROPERTIES 语 名 中 


进行 定义 。 
表 17-1 ”Cassandra SerDe 存 储 控制 器 属性 


描述 


cassandra.cloumns.mapping 


cassandra.cf.name Cassandra 中 的 列 族 名 


cassandra.host 要 连接 的 Cassandra 闻 点 IP 


cassandra.partitioner 区 器 ， 默 认 是 RandomPartitioner 


表 17-2 中 所 介绍 的 属性 可 以 在 TBLPROPERTIES 语 句 中 进行 定 
义 o 


表 17-2 Cassandra 表 属性 


cassandra.ks.repfactor Cassandra 隐 余 


， 默 认 是 SimpleStrategy 
Cun aa 小 大小， 默认 是 64*1024 
MapReduce 片 推测 大 小 ， 默 认 是 1000 


17.5 DynamoDB 


Amazon 的 Dyn 出 的 NoSQL 数 据 库 之 一 。Dynamo 的 设 
计 影 响 了 很 多 其 他 的 数据 库 ， 包 括 Cassandra 和 HBase。 尽 管 其 有 很 大 
的 影响 力 ， 但 是 :Dynamo 目 
Amazon 发 布 了 另 一 鞭 受 Dynamo 影 响 的 数据 库 ， 这 个 数据 库 被 称 为 
DynamoDB 。 


DynamoDB 属 于 键 - 值 数 据 库 中 的 一 种 。 在 DynamoDB 中 ， 表 就 是 
一 组 元 素 (item) 的 集合 ， 而 且 其 中 必需 要 有 一 个 主键 。 一 个 元 素 
(item) 包含 有 一 个 键 和 任意 数量 的 属性 值 。 不 同 的 元 素 (item) 可 
以 具有 不 同 的 属性 集 。 


用 户 可 以 通过 Hive 碍 询 DynamoDB 中 的 表 ， 而 且 用 户 可 以 迁移 出 
数据 或 者 导入 数据 到 S3 中 。 下 面 是 一 个 关于 股票 的 Hive 表 的 例子 ， 这 
个 表 底 层 其 实 是 一 张 DynamoDB 表 : 


CREATE EXTERNAL TABLE dynamo_stocks( 
key INT, symbol STRING, 
ymd STRING, price FLOAT) 
STORED BY 
'org.apache.hadoop.hive.dynamodb .DynamoDBStorageHandler' 


TBLPROPERTIES ( 
"dynamodb.table.name" = "Stocks", 
"dynamodb .column.mapping" = 

"key:Key, symbol:Symbol, 
ymd:YMD, price_close:Close"),; 


关于 DynamoDB， 可 以 通过 如 下 链接 获取 更 多 信息 : 


http://aws.amazon.com/dynamodb/ ° 
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在 了 解 Hive 的 安全 机 制 之 前 ， 我 们 需要 首先 清楚 Hadoop 的 安全 机 
制 以 及 Hadoop 的 历史 。Hadoop 起 源 于 Apache Nutch 的 子 项 目 。 在 那个 
时 期 以 及 其 整个 早期 原型 时 期 ， 功 能 性 需求 比 安 全 性 需求 优先 级 要 
高 。 分 布 式 系统 的 安全 问题 要 比 正 常情 况 下 更 加 复杂 ， 因 为 不 同 机 需 
上 的 多 个 组 件 需要 相互 进行 通信 。 


在 如 v0.20.205 发 行 版 之 前 的 非 安 全 Hadoop 版 本 中 ， 是 通过 调用 本 
地 的 whoami 脚 本 获取 用 户 名 的 。 用 户 可 以 自由 地 通过 设置 FSShell 命 令 
(文件 系统 命令 ) 中 的 hadoop.job.ugi 属 性 来 改变 这 个 参数 值 。Map 或 
者 Reduce 任 务 (task) 都 以 相同 的 系统 用 户 (通常 用 户 名 是 hadoop 或 
者 mapred) 在 Task-Tracker 广 点 上 执行 任务 。 同 样 地 ，Hadoop 组 件 通常 
要 监听 数值 比较 大 的 端口 。 通 党 情况 下 ， 都 是 以 非特 权 用 户 来 执行 的 
(例如 ， 非 root 用 户 的 其 他 用 户 ) 。 


最 近 对 于 Hadoop 的 安全 引入 了 多 个 变化 ， 其 中 主要 是 对 于 
Kerberos 安 全 认证 的 文 持 ， 还 包含 其 他 一 些 问 题 的 修复 。Kerberos 人 允许 
客户 端 和 服务 端 相 互 认 证 。 客 户 端的 每 次 请 求 中 都 会 带 有 凭证 

(ticket) 信息 。 在 TaskTracker 上 执行 的 任务 (task) 都 是 由 执行 任务 

(job) 的 用 户 来 执行 的 。 用 户 无 法 通过 设置 hadoop.job.ugi 属 性 的 值 来 
模拟 其 他 人 来 执行 任务 。 为 了 达到 这 个 目的 ， 所 有 的 Hadoop 组 件 从 头 
到 尾 都 要 使 用 Kerberos 安 全 认证 。 


Hive 在 Hadooop 引 入 Kerberos 文 持 之 前 就 已 经 存在 了 ， 而 且 Hive 目 
前 还 没有 完全 和 Hadoop 的 安全 改变 相 融 合 。 例 如 ，Hive 元 数据 存储 连 
接 可 能 是 直接 连接 到 一 个 JDBC 数 据 库 或 者 是 通过 Thrift 进 行 连接 ， 这 
些 都 要 使 用 用 户 的 吴 份 进行 各 种 操作 。 像 HiveService 这 样 的 基于 Thrift 
的 组 件 还 是 要 冒充 他 人 来 执行 。Hadoop 的 文件 用 户 权限 模型 (也 就 是 
对 于 一 个 文件 分 为 用 户 、 组 和 其 他 3 层 权 限 ) 和 很 多 其 他 数据 库 中 用 户 
权限 模型 具有 很 大 的 差异 ， 数 据 库 中 通常 是 使 用 对 表 行 或 者 字段 级 别 
进行 授权 和 权限 回收 操作 来 进行 权限 控制 的 。 


本 章 试图 强调 在 安全 和 非 安全 Hadoop 版 本 中 Hive 的 组 件 操 作 的 不 
同 点 。 关 于 Hadoop 的 安全 特性 的 详细 介绍 ， 请 参考 Tom White 


(O'Reilly) 所 著 的 《Hadoop 编 程 指南 》 一 书 。 


TS 党 和 

Hadoop 中 的 安全 文 择 仍然 是 相对 比较 新 且 处 于 进化 中 的 。 
Hive 中 有 些 部 分 还 是 无 法 和 Hadoop 的 安全 支持 相 融 合 的 。 本 和 所 
讨论 的 内 容 总 结 了 当前 Hive 安 全 的 状况 ， 但 这 并 非 是 最 终 状 况 。 


关于 Hive 安 全 的 更 多 内 容 ， 可 以 参考 Hive 的 安全 wiki 页 面 : 
https://cwiki.apache.org/confluence/display/Hive/Security。 同时 ， 和 本 书 
中 其 他 章 市 不 同 的 是 ， 我 们 会 要 求 用 户 查 看 更 多 相关 的 JIRA 获 取 更 多 


Cs 
信息 。 


18.1 和 Hadoop 安 全 功能 相 结 合 


Hive v0.7.0 版 本 增加 了 和 Hadoop 安 全 功能 的 结合 叫 ， 这 意味 着 ， 
例如 ， 当 Hive 提 有 交 任 务 到 安全 集群 的 JobTracker 上 时 ， 其 将 使 用 合适 的 
7 。 用 户 权 限 可 以 被 授予 也 可 以 被 回收 ， 这 个 下 面 我 们 将 
进行 讨论 。 


不 过 在 Thrift 和 其 他 组 件 中 仍 存在 着 几 个 已 知 的 安全 漏洞 ， 这 些 在 
Hive 的 安全 wiki 页 面 上 有 列举 出 来 。 


18.2 ”使 用 Hive 进 行 验 证 


如 果 文 件 和 文件 夹 是 多 个 用 户 共同 拥有 的 话 ， 那 么 文件 的 权限 设 
置 束 变 的 非常 重要 。HDEFS 中 文件 目 永 权限 和 Unix 中 的 模式 非常 相 
似 ， 都 包含 有 3 层 : 用 户 、 组 和 其 他 。 同 时 具有 3 种 权限 : 可 读 、 可 写 
和 可 执行 。Hive 中 有 一 个 配置 变量 hive.files.umask.value 来 定义 对 于 新 
创建 的 文件 设置 的 默认 权限 的 umask 值 ， 也 束 是 手 码 字 节 数 。 


<property> 

<name>hive.files.umask.value</name> 

<value>0002</value> 

<description>The dfs.umask value for the hive created folders</description> 
</property> 


同时 ， 当 属性 hive.metastore.authorization.storage.checks 的 值 为 true 
时 ， 如 采用 户 没有 权限 删除 表 底 层 的 文件 ，Hive 就 会 阻止 用 户 来 删除 
这 样 的 表 。 这 个 参数 的 默认 值 是 false， 而 其 应 该 是 设置 为 true 的 ; 


<property> 
<name>hive.metastore.authorization.storage.checks</name> 
<value>true</value> 
<description>Should the metastore do authorization checks against 


the underlying storage for operations like drop-partition (disallow 
the drop-partition if the user in question doesn't have permissions 
to delete the corresponding directory on the storage).</description> 
</property> 


当 在 安全 模式 下 执行 时 ，Hive 元 数据 存储 要 尽 可 能 地 将 


hive.metastore.execute.setugi 设 置 为 true 。 


<property> 
<name>hive.metastore.execute.setugi</name> 
<value>false</value> 
<description>In unsecure mode, setting this property to true will 
cause the metastore to execute DFS operations using the client's 
reported user and group permissions. Note that this property must 
be set on both the client and server sides,. Further note that its 
best effort. If client sets it to true and server sets it to false, 
client setting will be ignored.</description> 

</property> 


可 以 在 如 下 JIRA 中 获取 更 详细 的 信息 : 
https://issues.apache.org/jira/browse/HIVE-842, “Hive 中 安全 任务 架 
构 7 o 


18.3 ”Hive 中 的 权限 管理 


Hive v0.7.0 版 本 中 同时 增加 了 通过 HiveQL 进 行 授权 设置 的 功能 
[2 。 上 默认 情况 下 ， 授 权 模 块 是 不 开启 的 ， 需 要 将 如 下 的 属性 设置 为 
true， 才 能 开局 授权 : 


<property> 
<name>hive.security.authorization.enabled</name> 
<value>true</value> 


<description>Enable or disable the hive client authorization</description> 
</property> 
<property> 
<name>hive.security.authorization.createtable.owner .grants</name> 
<value>ALL</value> 
<description>The privileges automatically granted to the owner whenever 


a table gets created.An example like "select,drop" will grant select 
and drop privilege to the owner of the table</description> 
</property> 


默认 情况 下 ，hive.security.authorization.createtable.owner.grants 的 
值 是 nul， 这 使 得 用 户 无 法 访问 目 己 的 表 。 因 此 ， 我 们 也 要 给 予 表 创 
建 者 对 应 的 权限 才能 访问 自己 创建 的 表 。 


一 一 


TS 葵 告 


当前 用 户 是 可 以 通过 set 命 令 来 将 相关 的 属性 设置 为 false 来 天 
闭 权 限 认 证 的 。 


18.3.1 用 户 、 组 和 角色 


可 以 对 用 户 (user) 、 组 (group) 或 者 角色 (role) 授予 权限 或 
者 回收 权限 。 我 们 将 逐步 演示 对 这 些 实体 的 授权 过 程 。 


hive> set hive.security.authorization.enabled=true,; 


hive> CREATE TABLE authorization_ test (key int, value string); 


Authorization failed:No privilege 'Create' found for outputs { database:default}. 
Use show grant to get more details. 


我 们 已 经 看 到 ， 我 们 使 用 的 用 户 没 有 在 default 数 据 库 下 创建 表 的 
权限 。 我 们 可 以 对 多 个 实体 进行 授权 。 第 一 个 实体 就 是 用 户 
(user) ，Hive 中 的 用 户 就 是 用 户 的 系统 用 户 名 。 我 们 可 以 确定 其 名 
0 
这 ”| 


hive> Set System:user ,name， 
system:user.name=edward 


hive> GRANT CREATE ON DATABASE default TO USER edward ; 


hive> CREATE TABLE authorization_ test (key INT, value STRING); 


我 们 可 以 通过 SHOW GRANT 命 令 查 看 授权 结果 情况 : 


hive> SHOW GRANT USER edward ON DATABASE default,; 


database default 
principalName edward 


principalType USER 

privilege Create 

grantTime Mon Mar 19 09:18:10 EDT 2012 
grantor edward 


在 用 户 很 多 同时 表 也 很 多 的 情况 下 ， 对 于 用 户 级 别 的 权限 授予 将 
会 给 运 维 上 带 来 高 成 本 。 一 个 更 好 的 选择 就 是 基于 组 (group) 级 别 的 
权限 授予 。Hive 中 组 和 用 户 的 主 POSIX 组 是 等 价 的 : 


hive> CREATE TABLE authorization_ test_group(a int,b int); 


hive> SELECT * FROM authorization test_group; 

Authorization failed:No privilege 'Select' found for inputs 

{ database:default, table:authorization_ test_group, columnName:a}. 
Use show grant to get more details. 


hive> GRANT SELECT on table authorization test_ group to group edward; 


hive> SELECT * FROM authorization test_group; 
OK 
Time taken: 0.119 seconds 


如 果 用 户 (user) 和 组 (group) 仍 不 够 灵活 的 话 ， 那 么 可 以 使 用 
角色 (role) 。 用 户 可 以 放置 在 角色 中 同时 可 以 为 角色 进行 授权 。 角 
色 十 非 币 灵活 的 ， 因 为 和 组 不 一 样 ， 组 是 由 系统 外 部 进行 控制 的 ， 而 
角色 是 由 Hive 内 部 进行 控制 的 : 


hive> CREATE TABLE authentication test_role (a int , b int); 


hive> SELECT * FROM authentication test_role; 

Authorization failed:No privilege 'Select' found for inputs 

{ database:default, table:authentication_ test_role, columnName:a}. 
Use show grant to get more details. 


hive> CREATE ROLE Users who_can_select _ authentication test_role; 


hive> GRANT ROLE users_ who_can_ select authentication_ test_role TO USER edward ， 


hive> GRANT SELECT ON TABLE authentication_ test_role 
> TO ROLE users who_can_select_ authentication_ test_role; 


hive> SELECT * FROM authentication test_role; 
OK 
Time taken: 0.103 seconds 


18.3.2 ”Grant 和 Revoke 权 限 


表 18-1 列举 出 了 可 以 配置 的 权限 。 
表 18-1 权限 


有 修改 表 结 构 的 权限 


有 删除 表 或 表 中 的 分 区 的 权限 


| 建 表 索 引 的 权限 (注意 
启 并 发 后 ， 锁 定 和 解锁 定 表 的 权限 
查询 表 或 者 分 区 中 数据 的 权限 
查 数据 库 的 权限 
向 表 或 者 分 区 中 插入 或 加 载 数 据 的 权限 


下 面 这 个 例子 演示 了 如 何 使 用 CREATE 权 限 : 


hive> SET hive.security.authorization.enabled=true,; 
hive> CREATE DATABASE edsstuff; 
hive> USE edsstuff,; 


hive> CREATE TABLE a (id INT); 


Authorization failed:No privilege 'Create' found for outputs 
{ database:edsstuff}. Use show grant to get more details. 


hive> GRANT CREATE ON DATABASE edsstuff TO USER edward ; 
hive> CREATE TABLE a (id INT); 


hive> CREATE EXTERNAL TABLE ab (id INT); 


同样 地 ， 我 们 可 以 通过 如 下 命名 授予 ALTER 权 限 : 


hive> ALTER TABLE a _ REPLACE COLUMNS (a int ，b int); 
Authorization failed:No privilege 'Alter' found for inputs 
{ database:edsstuff, table:a}. Use show grant to get more details. 


hive> GRANT ALTER ON TABLE a TO USER edward; 


hive> ALTER TABLE a REPLACE COLUMNS (a int , b int); 


需要 注意 的 是 ， 对 于 如 下 这 种 为 分 区 表 新 增 分 区 的 操作 是 不 需 
ALTER 权 限 的 : 


往 表 中 加 载 数据 的 话 需要 使 用 UPDATE 权 限 : 


hive> LOAD DATA INPATH '${env:HIVE HOME}/NOTICE' 
> INTO TABLE a_part_table PARTITION (b=5); 
Authorization failed:No privilege 'Update' found for outputs 
{ database:edsstuff, table:a part_table}. Use show grant to get more details. 


hive> GRANT UPDATE ON TABLE a_ part_table TO USER edward,; 


hive> LOAD DATA INPATH '${env:HIVE HOME}/NOTICE' 
> INTO TABLE a_part_table PARTITION (b=5); 
Loading data to table edsstuff.a_ part_table partition (b=5) 


删除 表 或 者 分 区 需要 DROP 权 限 : 


hive> ALTER TABLE a_part_table DROP PARTITION (b=5); 
Authorization failed:No privilege 'Drop' found for inputs 
{ database:edsstuff, table:a part_table}. Use show grant to get more details. 


从 表 或 者 分 区 中 查询 数据 的 话 需 要 SELECT 权 限 : 


hive> SELECT id FROM a_part_table,; 

Authorization failed:No privilege 'Select' found for inputs 

{ database:edsstuff, table:a part_table, columnName:id}. Use show 
grant to get more details. 


hive> GRANT SELECT ON TABLE a_ part_table TO USER edward,; 


hive> SELECT id FROM a_part_table,; 


、 


目前 GRANT SELECT(COLUMN) 这 个 操作 语法 是 通过 的 ， 不 
过 实际 不 会 执行 。 


用 户 同 样 可 以 通过 如 下 命令 授予 全 部 的 权限 : 


18.4 分 区 级 别 的 权限 


Hive 中 分 区 表 非 常常 见 。 默 认 情 况 下 ， 是 在 表 级 别 授予 权限 的 。 
不 过 ， 同 样 可 以 在 分 区 级 别 进行 权限 授予 。 为 达到 这 个 目标 ， 只 需要 
将 表 属 性 PARTITION_ LEVEL PRIVILEGE 设 置 为 TRUE 即 可 : 


hive> CREATE TABLE authorize part (key INT, value STRING ) 
> _ PARTITIONED BY (ds STRING); 


hive> ALTER TABLE authorization_part 

> SET TBLPROPERTIES ("PARTITION_LEVEL_PRIVILEGE"="TRUE") ， 
Authorization failed:No privilege 'Alter' found for inputs 
{database:default, table:authorization_part}. 
Use show grant to get more details. 
hive> GRANT ALTER ON table authorization_ part to user edward; 


hive> ALTER TABLE authorization_part 
> SET TBLPROPERTIES ("PARTITION_ LEVEL_ PRIVILEGE"="TRUE"); 


hive> GRANT SELECT ON TABLE authorization part TO USER edward; 
hive> ALTER TABLE authorization_part ADD PARTITION (ds="'3'); 
hive> ALTER TABLE authorization_part ADD PARTITION (ds="'4'); 


hive> SELECT * FROM authorization_ part WHERE ds='3'， 


hive> REVOKE SELECT ON TABLE authorization_part partition (ds='3') FROM USER 
edward; 


hive> SELECT * FROM authorization_ part WHERE ds='3'， 

Authorization failed:No privilege 'Select' found for inputs 

{ database:default, table:authorization part, partitionName:ds=3, columnName:key}. 
Use show grant to get more details. 


hive> SELECT * FROM authorization_ part WHERE ds="'4'; 


OK 
Time taken: 0.146 seconds 


18.5 ”自动 授权 


用 户 经 肖 会 期 望 创建 表 后 不 再 执行 烦人 的 授权 命令 ， 殉 可 以 具有 
相关 的 权限 ， 而 直接 去 执行 后 续 的 查询 ， 等 等 。 早 期 ， 用 户 可 能 需要 
具有 ALL 权 限 才 可 以 ， 不 过 现在 可 以 为 默认 情况 指定 更 细 市 的 权限 。 


属性 hive.security.authorization.createtable.owner.grants 中 可 以 定义 
为 创建 表 的 用 户 目 动 授 予 对 这 张 表 的 指定 的 权限 。 在 下 面 的 这 个 例子 
中 ， 并 不 是 授予 ALL 权 限 ， 而 是 为 用 户 目 动 授予 对 其 所 创建 的 表 的 
SELECT 和 DROP 权 限 : 


<property> 
<name>hive.security.authorization.createtable.owner .grants</name> 
<value>select, drop</value> 

</property> 


类 似 地 ， 可 以 在 创建 表 时 目 动 授予 指定 用 户 指定 的 权限 。 属 性 
hive.security.authorization. createtable.user.grants 就 控制 着 这 个 行为 。 下 
面 这 个 例子 展示 了 Hive 管 理 员 账 号 admin1 和 用 户 edward 默 认 授 予 所 有 
表 的 读 权 限 ， 而 user1 只 有 创建 表 的 权限 。 


<property> 
<name>hive.security.authorization.createtable.user.grants</name> 


<value>admin1,edward:select;useri:create</value> 
</property> 


对 于 组 (group) 和 角色 (role) 同样 具有 类 似 的 属性 来 控制 自动 授 
予 的 权限 。 对 于 组 ， 该 属性 名 为 
hive.security.authorization.createtable.group.grants; 对 于 角色 ， 这 个 属性 
是 hive.security.authorization.createtable.role.grants。 这 些 属 性 的 值 的 形 


式 和 前 面 介绍 的 是 相同 的 。 


[1] 请 参考 如 下 链接 : https://issues.apache.org/jira/browse/HIVE-1264 。 


[2] 请 参考 https://issues.apache.org/jira/browse/HIVE-78,“Hive" 中 的 权限 
管理 染 构 ”以 及 如 下 链接 中 对 于 这 个 功能 的 描述 : 


https://cwiki.apache.org/Hive/languagemanual-auth.html ° 


第 19 章 锁 


尽管 HiveQL 是 一 种 SQL 方言 ， 但 是 Hive 缺 少 通常 在 update 和 insert 
类 型 的 查询 中 使 用 到 的 对 于 列 、 行 或 者 查询 级 别 的 锁 文 持 。Hadoop 中 
的 文件 通常 是 一 次 写 入 的 《尽管 Hadoop 确 实 支 持 有 限 的 文件 追加 功 
能 ) 。 因 为 这 个 一 次 写 入 的 天 性 和 MapReduce 的 streaming 类 型 ， 访 问 
细 粒 度 锁 是 不 必要 的 。 


不 过 ， 既 然 Hadoop 和 Hive 是 多 用 户 系 统 ， 那 么 在 一 些 情况 下 ， 锁 
和 协调 会 是 非常 有 用 的 。 例 如 ， 如 果 一 个 用 户 期 望 锁 定 一 个 表 ， 因 为 
使 用 INSERT OVERWRITE 这 样 的 查询 就 可 以 修改 表 的 内 容 ， 而 同时 第 
2 个 用 户 也 尝试 使 用 这 个 表 解 决 某 个 查询 问题 ， 这 样 的 查询 可 能 会 失败 
或 者 产生 无 效 的 结果 。 


Hive 可 以 被 认为 古 一 个 腾 客 户 痢 ， 因 为 在 某 种 意义 上 每 个 Hive 
CLI、Thrift server 或 者 Web 接 口 实例 都 不 是 完全 独立 于 其 他 实例 的 。 
为 这 个 独立 性 ， 所 有 锁 必须 由 单独 的 系统 进行 协调 。 


19.1 ” Hive 结合 Zookeeper 支 持 锁 功能 


Hive 中 包含 了 一 个 使 用 Apache Zookeeper 进 行 锁 定 的 锁 功 能 。 
Zookeeper 实 现 了 高 度 可 靠 的 分 布 式 协调 功能 。 处 理 需 要 增加 一 些 额 外 
的 设置 和 配置 步 又。Zookeeper 对 于 Hive 用 户 来 说 是 透明 的 。 


设置 Zookeeper， 需 要 为 其 指定 一 个 或 者 多 个 服务 絮 来 执行 它 的 服 
务 进程 。— 典 型 的 最 小 配置 需要 具有 3 个 Zookeeper 信 点， 这 样 束 可 以 提 
供 一 个 群体 ， 并 保持 足够 的 元 余 。 


在 下 一 个 示例 中 ， 我 们 将 使 用 3 个 和 点 : zkl.site.pvt、zk2.site.pvt 
和 zk3.site.pvt 。 


下 载 并 解压 缩 一 个 Zookeeper 发 行 包 。 通 过 如 下 一 系列 命令 ， 我 们 
束 可 以 将 Zookeeper 安 装 到 /opt 目 录 下 ， 安 效 过 程 需 要 sudo 访 问 权 限 
(对 于 Zookeeper 之 后 的 更 新 的 版 本 ， 如 果 有 如 下 命令 的 话 ， 差 不 多 也 
是 可 以 通过 如 下 方式 安装 的 ) : 


$ cd /opt 
$ sudo curl -o http://www.ecoficial.com/am/zookeeper/stable/zookeeper-3.3.3.tar.gz 


$ sudo tar -xf zookeeper-3.3.3.tar.gz 
$ sudo ln -s zookeeper-3.3.3 zookeeper 


创建 一 个 目录 用 来 存放 Zookeeper 的 数据 : 


创建 一 个 Zookeeper 配 置 文件 /opVzookeeperconf/zoo.cfg。 这 个 配 
置 文件 中 的 内 容 可 以 参考 下 面 的 信息 ， 当 然 需 要 根据 用 户 的 安装 情况 
适当 进行 修改 : 


tickTime=2000 
dataDir=/var/zookeeper 
clientPort=2181 
initLimit=5 


syncLimit=2 

server.1=zk1.site.pvt:2888:3888 
server .2=zk2.site.pvt:2888:3888 
server .3=zk3.site.pvt:2888:3888 


在 每 台 服 务 器 上 ， 都 需要 创建 一 个 myid 文 件 ， 并 确保 文件 内 容 和 
配置 文件 中 配置 的 ID 匹配 。 例 如 ， 对 于 zkl.site.pvt 这 个 万 点 服务 右上 
的 myid 文 件 ， 用 户 可 以 通过 如 下 命令 进行 创建 : 


最 后 ， 通 过 如 下 命令 启动 Zookeeper: 


$ sudo /opt/zookeeper/bin/zkServer.sh start 


4 


提示 


用 户 需 要 使 用 root 用 户 来 局 动 这 个 进程 ， 虽然 对 于 大 多 的 进 
程 都 无 需 使 用 root 用 户 局 动 。 用 户 可 以 以 通 第 的 标准 技术 使 用 其 
他 的 用 户 来 执行 这 个 文件 。 


一 旦 Zookeeper 世 点 间 相 互通 信 ， 可 能 束 会 在 一 台 Zookeeper 和 点 
上 创建 数据 ， 而 从 男 一 个 市 点 上 读 取 数据 。 例 如 ， 在 某 个 节点 上 执行 


如 下 这 个 会 话 : 


$ /opt/zookeeper/bin/zkCli.sh -server Zk1,.site.pvt:2181 
[zk: zk1.site.pvt:2181(CONNECTED) 3] ls / 


[zookeeper] 
[zk: zk1.site.pvt:2181(CONNECTED) 4] create /zk_test my_data 
Created /zk_test 


然后 ， 从 其 他 某 个 节点 上 执行 这 个 会 话 ， 或 者 在 之 前 的 那个 市 感 
上 重新 开 一 个 控制 台 来 执行 这 个 会 话 : 


$ /opt/zookeeper/bin/zkCli.sh -server zki1.site.pvt:2181 
[zk: zk1.site.pvt:2181(CONNECTED) 0] ls / 

[zookeeper, zk_test] 

[zk: zk1.site.pvt:2181(CONNECTED) 1] 


嘲 ! 好 吧 ， 最 艰难 的 部 分 已 经 过 去 了 。 现 在 我 们 需要 配置 Hive， 
让 其 可 以 使 用 这 a 


在 $HIVE_HOME/hive-site.xml 这 个 配置 文件 中 ， 需 要 增加 如 下 属 
性 配置 : 


<property> 
<name>hive.zookeeper .quorum</name> 
<value>zk1.site.pvt,zki1.site.pvt,zki1.site.pvt</value> 
<description>The list of zookeeper servers to talk to. 
This is only needed for read/write locks.</description> 
</property> 


<property> 
<name>hive.support.concurrency</name> 
<value>true</value> 
<description>whether Hive supports concurrency or not. 
A Zookeeper instance must be up and running for the default 
Hive lock manager to support read-write locks.</description> 
</property> 


配置 好 这 些 属性 后 ，Hive 会 对 特定 的 查询 目 动 启动 获取 锁 ， 用 户 
可 以 通过 SHOW LOCKS 命 令 查 看 当前 的 所 有 锁 : 


hive> SHOW LOCKS; 
default@people_20111230 SHARED 
default@places SHARED 


default@places@hit_date=20111230 SHARED 


假设 这 里 的 places 是 分 区 表 ， 如 下 这 些 更 加 集中 的 查询 也 是 支持 
的 ， 其 中 的 省 略 号 可 以 换 成 一 个 适当 的 分 区 描述 。 


hive> SHOW LOCKS places EXTENDED 
default@places SHARED 


hive> SHOW LOCKS places PARTITION (...); 
default@places SHARED 


hive> SHOW LOCKS places PARTITION (...) EXTENDED 
default@places SHARED 


Hive 中 提供 了 2 种 类 型 的 山 ， 开 局 并 发 功能 后 ， 写 们 也 就 目 动 被 局 
人 多 重 并 发 共 至 锁 也 是 人 允 
L E> 


对 于 其 他 那些 会 以 某 种 方式 修改 表 的 操作 都 是 需要 使 用 独占 锁 
A 同时 也 会 阻止 其 他 进程 进行 查 
A) ° 


当 表 是 分 区 表 时 ， 对 一 个 分 区 获取 独占 锁 时 会 导致 需要 对 表 本 号 
获取 共 至 锁 来 防止 发 生 不 相 容 的 变更 ， 例如 当 表 的 一 个 分 区 正在 被 修 
改 的 时 候 答 试 删除 这 个 表 。 当 然 ， 对 表 使 用 独占 锁 会 全 局 影响 所 有 的 


分 区 。 


19.2” 显 式 锁 和 独占 锁 

用 户 同样 可 以 显 式 地 管理 锁 。 例 如 ， 假 设 某 个 Hive 会 话 对 表 
people 创 建 了 一 个 显 式 锁 ; 

下 面 是 另 一 个 Hive 会 话 ， 其 尝试 查询 这 个 被 锁定 的 表 : 


hive> SELECT COUNT(*) FROM people,; 
conflicting lock present for default@people mode SHARED 
FAILED: Error in acquiring locks: locks on the underlying objects 


cannot be acquired. retry after some time 


通过 UNLOCK TABLE 语 句 可 以 对 表 进 行 解锁 ， 解 锁 后 其 他 会 话 


的 查询 就 可 以 正常 工作 了 : 


hive> UNLOCK TABLE people; 


第 20 章 ”Hive 和 Oozie 整 合 


Apache Oozie 是 一 个 工作 流 引 获 服 务 咽 ， 其 用 于 运行 Hadoop 
Map/Reduce 和 Pig 任 务工 作 流 ， 官 网 地 址 是 : 
http:Wincubatorapache.org/oozie/。 Hive 本 喘 也 具有 一 个 内 置 的 工作 流 系 
统 。Hive 可 以 将 一 个 查询 转化 成 一 个 或 者 多 个 执行 过 程 ， 例 如 
map/reduce 执 行 过程 或 者 一 个 move 转 移 文件 的 执行 过 程 。 如 果 其 中 某 个 
过 程 失败 了 ，Hive 束 会 清理 这 个 进程 并 报告 错误 信息 。 如 有 果 其 中 某 个 
执行 过 程 成 功 了 ，Hive 束 会 执行 下 一 个 子 过 程 直到 整个 job 执 行 成 功 。 
同时 ， 可 以 在 一 个 HQL 文 件 中 放置 多 个 语句 ， 人 然后 Hive 会 按照 次 序 执 
行 这 些 查 询 ， 直 到 文件 中 所 有 的 语句 都 执行 成 功 为 上 。 


Hive 中 的 工作 流 控制 系统 对 于 处 理 单个 任务 或 者 处 理 按 照 次 序 执 
行 的 多 个 任务 的 效 来 是 非常 好 的 。 不 过 ， 一 些 工作 流 要 比 之 复杂 得 
多 。 例 如 ， 用 户 可 能 需要 这 样 一 个 处 理 过 程 ， 其 第 1 步 古 一 个 传统 的 
MapReduce 任 务 ， 而 第 2 步 需要 使 用 到 第 1 步 的 输出 作为 输入 ， 然 后 使 用 
Hive 进 行 处 理 ， 而 最 后 1 步 是 使 用 distcp 命 令 将 第 2 步 的 输出 结果 传递 到 
了 1 ee 。 这些 形 式 的 工作 流 对 于 Oozie 工 作 流 来 说 都 是 可 以 进 
行 处 理 的 。 


Oozie 工 作 流 任 务 是 一 系列 “动作 ”的 有 向 无 环 图 (DAG) 。 一 些 工 
作 流 是 根据 需要 进行 触发 的 ， 但 大 多 数 情况 下 ， 我 们 有 必要 基于 一 定 
的 时 间 段 和 (或 ) 数据 可 用 性 和 (或 ， 外 部 事件 来 运行 它们 。Oozie 协 
调 系统 让 用 户 可 以 基于 这 些 参数 来 定义 工作 流 执行 计划 。Oozie 一 个 重 
要 的 特点 束 是 工作 流 的 状态 是 和 发 起 任务 的 客户 端 分 离开 来 的 。 这 种 
分 离 式 的 (发 起 ， 然 后 不 再 管理 ) 任务 启动 方式 是 非常 有 用 的 。 通 冲 
一 个 Hive 任 务 古 和 提交 这 个 任务 的 控制 台 联 系 在 一 起 的 。 如 末 控 制 台 
中 断 了 ， 那 么 其 任务 也 就 完成 了 一 半 了 。 


20.1 ”Oozie 提 供 的 多 种 动作 (Action) 


Oozie 提 供 了 多 个 内 置 的 动作 。 如 下 列举 了 其 中 的 一 些 ， 并 进行 了 
简要 的 描述 。 


1. MapReduce 


用 户 提 供 Mapper 类 和 Reducer 类 ， 并 设置 一 些 附 属 变量 。 


2. Shell 

包含 参数 的 Shell 命 令 也 可 作为 动作 来 执行 。 
3. Java 动作 

含有 main 方 面 的 Java 类 ， 可 以 指定 参数 后 执行 。 
4. Pig 

可 以 执行 Pig 脚 本 。 
5. Hive 

可 以 执行 Hive 的 HQL 查 询 。 
6. DistCp 


可 以 执行 DistCp 命 令 ， 将 数据 拷贝 到 另 一 个 HDFS 集 群 ， 或 从 另 一 
个 HDFS 集 群 拷贝 数据 到 当前 集群 。 


Hive Thrift Service Action 


Hive 内 置 的 动作 可 以 很 好 地 工作 ， 但 是 其 有 一 些 缺 点 。 它 们 会 将 
Hive 作 为 胖 客 户 端 来 使 用 。Hive 分 支 中 的 大 部 分 ， 包 括 JAR 文 件 和 配置 
文件 ， 都 需要 拷贝 到 工作 流 目 录 下 。 当 Oozie 启 动 一 个 动作 时 ， 其 就 会 
随机 地 选择 一 个 TaskTracker 节 点 进行 启动。 如 有 果 用 户 设 置 元 数据 存储 
只 能 从 指定 的 主机 进行 连接 的 话 ， 那 么 瓯 可 能 存在 连接 元 数据 存储 的 
问题 。 因 为 如 果 任 务 失败 了 ，Hive 会 遗留 下 如 hive-history 或 一 些 存放 
mp 日 录 下 的 东西 ， 所 以 需要 确保 清理 所 有 TaskTracker 上 面 的 这 些 信 


通过 使 用 Hive Thrift Service (参见 第 16 章 内 容 ) ， (基本 ) 可 以 解 
决 胖 客户 端 问题 。 其 中 HiveServiceBAction (表示 “Hive 服 务 B 计 划 行 动 
方案 ”) 使 得 可 以 通过 Hive Thrift Service 提交 任务 (job) 。 这 样 有 一 个 
好 处 ， 即 可 以 将 所 有 的 Hive 操 作 汇 集 到 一 个 预先 定义 的 执行 Hive 服 务 
的 节点 集合 上 。 


cd ~ 

git clone git://github.com/edwardcapriolo/hive_ test.git 
cd hive_test 

mvn wagon:download-single 

mvn exec:exec 

mvn install 


cd ~ 
git clone git://github.com/edwardcapriolo/m6d_oozie.git 
mvn install 


20.2 一 个 只 包含 两 个 查询 过 程 的 工作 流 示例 


通过 配置 特定 的 目录 结构 可 以 创建 一 个 工作 流 。 这 里 的 目录 结构 
里 含有 我 们 所 需要 的 JAR 文 件 ， 一 个 是 job.properties 文 件 ， 男 一 个 是 
workflow.xml 文 件 。 这 个 目录 必须 创建 在 HDFS 中 ， 但 最 好 先 在 本 地 创 
建 好 文件 来， 然后 将 其 拷贝 到 HDFS 中 : 


$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 
$ 


mkdir myapp 

mkdir myapp/l1ib 

cp $HIVE_HOME/l1ib/*.jar myapp/lib/ 
cp m6d_oo0zie-1.0.0.jar myapp/lib/ 
cp hive_test-4.0.0.jar myapp/lib/ 


文件 job.properties 中 配置 有 文件 系统 NameNode 地 址 和 Jobtracker 地 
址 。 同 时 ， 还 可 以 在 这 里 设置 一 些 Hadoop Job 配 置 文件 中 的 属性 信息 : 


如 下 是 个 job.properties 文 件 内 容 的 例子 : 


nameNode=hdfs://rs01.hadoop.pvt:34310 
jobTracker=rjt.hadoop.pvt:34311 

queueName=default 

o0zie.1libpath=/user/root/o0ozie/test/1ib 
oo0ozie.wf.application.path=${nameNode}/user/root/o0zie/test/main 


文件 workflow.xml 对 动作 进行 了 定义 : 


<workflow-app xmlns="uri:0o0zie:workflow:0.2" name="java-main-wf"> 
<Start to="create-node"/> 
<!--The create-node actual defines a table if it does not 
already exist--> 
<action name="create-node"> 


<java> 
<job-tracker>${jobTracker}</job-tracker> 
<name-node>${nameNode}</name-node> 
<configuration> 
<property> 
<name>mapred.job.queue.name</name> 


<value>${queueName}</value> 
</property> 
</configuration> 
<main-class>com.m6d .oozie.HiveServiceBAction</main-class> 
<arg>rhiveservice.hadoop.pvt</arg> 
<arg>10000</arg> 
<arg>CREATE TABLE IF NOT EXISTS zz_ zz_abc (a int, b int)</arg> 
</java> 
<!-- on success proceded to query_node action --> 
<ok to="query_node"/> 
<!-- on fail end the job unsuccessfully--> 
<error to="fail"/> 
</action> 


<!-- populate the contents of the table with an 
insert overwrite query --> 
<action name="query_node"> 
<java> 
<job-tracker>${jobTracker}</job-tracker> 
<name-node>${nameNode}</name-node> 
<configuration> 
<property> 
<name>mapred.job.queue.name</name> 
<value>${queueName}</value> 
</property> 
</configuration> 
<main-class>com.m6d .oo0ozie.HiveServiceBAction</main-class> 
<arg>rhiveservice.hadoop.pvt</arg> 
<arg>10000</arg> 
<arg>INSERT OVERWRITE TABLE zz_zz_abc SELECT dma_code,site_id 
FROM BCO WHERE dt=20120426 AND offer=4159 LIMIT 10</arg> 
</java> 
<ok to="end"/> 
<error to="fail"/> 
</action> 


<kill name="fail"> 
<message>Java failed, error message 
[${wf:errorMessage(wf:]lastErrorNode())}]</message> 
</kill> 
<end name="end"/> 
</workflow-app> 


20.3 ”Oozie 网 页 控制 台 


使 用 Oozie 网 页 控制 台 可 以 获得 操作 执行 的 细节 ， 也 因此 便于 进行 
任务 错误 定位 。Oozie 会 在 每 个 map 任 务 (task) 中 启动 每 个 动作 并 获取 
其 所 有 的 输入 和 输出 。 Oozie 可 以 很 好 地 展示 这 些 信息 并 提供 链接 ， 方 
便 到 Hadoop 的 JobTracker 碌 页 泵 笛 合 查看 这 些 任务 (job) 状态 信息 。 


图 20-1 是 一 张 Oozie 网 页 控制 台 的 屏幕 截图 。 


File Edit View History Bookmarks Tools Help 
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14 0% Group: 
| 00d bets Error Code: 18:00:0 
15 00 18:00:0 
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Error Message: 
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External ID: job_201203151019_16822 
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i Sat 28 Apr 2012 14:12:57 GMT Extemal Statis; | SUCCEEDED 
Last Modified: Sat 28 Apr 2012 14:14:05 GMT jie i § 3 
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p TackerURI: rithadoop.pvt:34311 
Actions | 国 | 
区 加 I D_ 
http:/ 中 0.71.71.41:11000/oozie/# 翅 


图 20-1 ”Oozie 网 页 控制 台 屏 幕 截图 


20.4 工作 流 中 的 变量 


基于 完全 静态 查 
中 的 大 多 数 使 用 场景 是 执行 今天 或 本 周 的 一 


在 前 面 的 工作 流 中 ， 你 可 能 


的 变量 


<kill name="fail"> 


<message>Java failed, 


注意 到 了 KILL 这 


error message 


系列 文件 的 处 理 过 程 。 


[${wf:errorMessage(wf :lastErrorNode())}]</message> 
</kill> 


二 


询 的 工作 流 是 很 有 用 的 ， 但 是 并 不 太 实 用 。Oozie 


示 记 以 及 其 中 插入 


J 一 个 ETIL 来 访问 这 些 变量 。job.properties 文 件 中 定义 的 


键 - 值 对 可 以 通 


20.5 ”获取 输出 


这 种 方式 进 


行 引 用 


Oozie 中 还 提供 了 一 个 可 以 放置 到 动作 中 的 <captureOutput/> 标 记 。 
通过 这 个 标记 可 以 捕获 输出 ， 并 可 以 将 其 连同 错误 信息 通过 邮件 发 出 
或 者 将 输出 发 送 给 其 他 处 理 过 程 。Oozie 在 每 个 动作 中 都 设置 了 一 个 
Java 属 性 ， 它 可 以 用 于 输出 那些 可 以 写 入 的 文件 名 。 如 下 代码 展示 了 如 
何 获 取 这 个 属性 : 


private static final String 
00ZIE_ACTION_OUTPUT_PROPERTIES = "oo0zie.action.output.properties",; 


public static void main(String args[]) throws Exception 
String oozieProp = System,getProperty(00ZIE_ACTION_OUTPUT_PROPERTIES ) ， 
} 


用 户 的 应 用 程序 可 以 向 该 位 置 输出 数据 。 
20.6 ”获取 输出 到 变量 


我 们 已 经 讨论 了 如 何 获取 输出 以 及 如 何 获 取 Oozie 变 量 ， 将 这 两 者 
结合 在 一 起 使 用 ， 就 可 以 满足 日 常 的 工作 流 使 用 需求 了 。 


看 一 下 我 们 前 面 的 那个 例子 ， 可 以 看 到 ， 我 们 是 从 硬 编码 的 FROM 
BCO WHERE dt=20120426 这 天 获取 数据 的 。 如 果 我 们 期 望 每 天 都 执行 
这 个 工作 流 的 话 ， 那 么 我 们 就 需要 将 硬 编 码 的 dt=20120426 内 容 使 用 一 
个 日 期 变量 进行 替换 : 


<action name="create table"> 
<java> 
<job-tracker>${jobTracker}</job-tracker> 
<name-node>${nameNode}</name-node> 
<configuration> 
<property> 
<name>mapred.job.queue.name</name> 
<value>${queueName}</value> 
</property> 
</configuration> 
<main-class>test.RunShellProp</main-class> 
<arg>/bin/date</arg> 
<arg>+x=%Y%m%d</arg> 
<capture-output /> 
</java> 
<ok to="run_query"/> 
<error to="fail"/> 
</action> 


这 将 产生 如 下 类 似 的 输出 : 


$ date +x=%Y%m%d 
X=20120522 


那么 就 可 以 在 这 个 处 理 过 程 后 面 使 用 这 个 输出 了 : 


使 用 Oozie 还 可 以 做 很 多 其 他 的 工作 ， 包 括 将 Hive 任务 (job) 和 使 
用 其 他 工具 (如 Pig、Java MapReduce 等 ) 实现 的 任务 (job) 的 整合 使 
用 o 


第 21 章 ”Hive 和 亚马逊 网 络 服务 系 
统 (AWS) 


Mark Grover 


Amazon 提 供 的 作为 AmazonWeb 服 务 (AWS) 一 部 分 的 就 是 弹性 
MapReduce (EMR) 。 使 用 EMR 可 以 按 需 组 建 一 个 由 节点 组 成 的 集 
群 。 这 些 集群 用 于 Hadoop 和 Hive 的 安装 和 配置 。 (用 户 也 可 以 配置 这 
个 集群 ， 以 使 用 Pig 或 者 其 他 工具 。) 用 户 可 以 执行 Hive 查 询 语句 ， 然 
后 在 完成 所 有 任务 后 终止 这 个 集群 ， 整 个 过 程 只 需 为 使 用 这 个 集群 的 
时 间 付 费 。 本 节 将 描述 如 何 使 用 弹性 MapReduce， 介 绍 一 些 基 本 的 实 
践 ， 包 括 使 用 MR 和 其 他 一 些 替 代 方 案 的 属性 和 配置 。 


在 阅读 本 章 时 ， 用 户 可 以 通过 如 下 链接 获取 在 线 AWS 文 档 说 明 : 
http:Waws.amazon.comy/elasticmapreduce/。 本 章 将 不 会 洱 括 所 有 的 在 
Amazon EMR 中 使 用 Hive 的 细节 。 本 章 只 会 提供 一 个 概述 并 详细 探讨 
一 些 实践 操作 。 


21.1 为 什么 要 弹性 MapReduce 


较 小 的 团队 和 初创 的 公司 经 常 没 有 足够 的 资源 来 建立 目 己 的 集 
群 ， 而 目 建 的 集群 需要 在 初始 阶段 进行 固定 的 投资 消耗 ， 需 要 有 能 
搭建 、 服 务 和 切换 ， 包 括 维护 Hadoop 和 Hive 安 装 。 


从 另 一 方面 来 说 ， 弹 性 MapReduce 性 价 比 高 ， 而 且 其 由 Amazon 来 
安装 和 维护 。 这 对 于 那些 没有 能 力 或 者 不 期 望 投资 目 己 的 集群 的 团队 
来 说 是 非常 有 益 的 ， 甚 至 对 于 大 的 团队 也 可 以 在 不 影响 目 己 的 生产 集 
群 的 情况 下 对 新 工具 和 新 创意 进行 测试 。 


21.2 ”实例 


一 个 Amazon 集 群 由 一 个 或 者 多 个 实例 组 成 。 各 种 实例 大 小 不 同 ， 
使 用 不 同 的 RAM， 提 供 不 同 的 计算 能 力 、 存 储 空 间 、 平 台 和 IO 处 理 


能 力 。 很 难说 针对 用 户 的 使 用 场景 使 用 多 少 的 集群 可 以 达到 最 佳 效 

果 。 使 用 EMR， 可 以 在 开始 的 时 候 使 用 较 小 的 实例 ， 并 使 用 如 Ganglia 
这 样 的 工具 监控 性 能 ， 然 后 对 多 个 不 同 大 小 的 实例 进行 试验 ， 找 到 平 
衡 成 本 和 性 能 的 最 佳 值 。 


21.3 ”开始 前 的 注意 事项 

在 使 用 Amazon EMR 之 前 ， 用 户 需 要 先 设置 一 个 Amazon Web 
Services(AWS) 账 号 。 在 “Amazon EMR” 开 女 蔡 谓 中 提供 了 如 何 注册 一 
个 AWS 账号 的 操作 说 明 。 


用 户 还 需要 创建 一 个 Amazon S3 数 据 桶 用 于 存储 用 户 输入 数据 并 
获取 用 户 Hive 处 理 过 程 的 输出 结果 。 

当 用 户 设 置 好 AWS 账 号 后 ， 需 要 确保 其 所 有 的 Amazon EC2 实 
例 、 刍 对、 安全 组 和 EMBR 工作 流 都 位 于 同一 个 区 域 以 避免 跨 区 域 数据 
传输 消耗 。 将 Amazon S3 数 据 桶 和 EMR 工作 流 设 置 在 同一 个 区 域 将 获 
得 更 高 的 性 能 。 

尽管 Amazon EMR 支 持 多 个 版 本 的 Hadoop 和 Hive， 不 过 只 有 一 些 


配套 的 Hadoop 和 Hive 版 本 才 支 持 Amazon EMR。 查 看 Amazon EMR 文 
档 以 获取 支持 的 Hadoop 和 Hive 组 合 版 本 。 


21.4 ”管理 自 有 EMR Hive 集 群 


Amazon 提 供 了 多 种 方式 来 创建 、 终 止 和 修改 Hive 集群 。 目 前 用 
户 可 以 通过 如 下 3 种 方式 来 管理 用 户 的 EMR Hive 集 群 。 


1. EMR AWS 管 理 控制 台 (基于 Web 的 前 端 控制 台 ) 


这 是 搭建 集群 而 无 需 安 狼 过 程 的 最 简单 的 方式 。 不 过 ， 当 规模 增 
大 时 ， 最 好 使 用 其 他 的 方式 进行 搭建 。 


2. EMR 命 令 行 交 互 界面 


这 种 方式 允许 用 户 使 用 简单 的 基于 Ruby 的 名 为 elastic-mapreduce 的 
CLI 来 管理 集群 。 


Amazon EMR 在 线 文 档 描 述 了 如 何 安装 和 使 用 CLI。 
3. EMR API 


这 种 方式 允许 用 户 使 用 一 个 名 为 EMR API 的 特定 语言 的 SDK 来 管 
理 EMR 集 群 。 在 Amazon EMR 文 档 中 有 介绍 下 载 和 使 用 这 种 SDK 的 详 
细 介 绍 。SDK 目 前 支持 Android、iOS、Java、PHP、Python、Ruby、 
Windows 和 .NET。SDK 的 一 个 缺点 是 ， 有 时 特定 的 SDK 包 含 的 实现 可 
能 没有 最 新 版 本 的 AWS API 提 供 的 新 。 


通 削 会 使 用 多 种 方式 来 管理 Hive 集 群 。 


下 面 是 一 个 使 用 Ruby elastic-mapreduce CLI 来 创建 一 个 包含 有 配 
置 好 的 Hive 的 单 和 点 Amazon EMR 焦 群 的 例子 。 其 不 仪 提供 了 执行 任 
务 和 退出 的 功能 ， 还 为 集群 安装 了 一 个 交互 界面 。 这 样 的 集群 是 学 习 
Hive 的 理想 工具 。 


elastic-mapreduce --create --alive --name "Test Hive" --hive-interactive 


如 果 用 户 想 使 用 Pig 的 话 ， 那 么 在 这 里 增加 --pig-interface 选项 即 


可 


下 一 步 束 是 按照 Amazon EMR 文 档 中 描述 的 方式 登录 到 这 个 集群 


21.5 EMR Hive 上 的 Thrift Server 服 务 


通常 情况 下 ，Hive Thrift Server (请 参考 第 16 章 的 内 容 ) 是 监听 来 
和 目 端 口 10 000 的 连接 的 。 不 过 ， 在 Amazon Hive 安 装 中 ， 这 个 端口 值 取 
决 于 所 使 用 的 Hive 的 版 本 。 这 样 做 的 目的 是 可 以 允许 用 户 安 闭 并 并 发 
支持 多 个 版 本 的 Hive。 因 此 ，Hive 0.5.x 版 本 使 用 的 是 10 000 端 口 。 
Hive 0.7.x 使 用 的 是 10 001 端 口 ， 而 Hive v0.7.1 使 用 的 是 10 002 端 口 。 当 
Amazon EMR 中 新 增 新 版 本 的 Hive 时 这 个 端口 值 应 该 是 要 改变 的 。 


21.6 EMR 上 的 实例 组 


每 个 Amazon 集群 都 具有 一 个 或 者 多 个 方 点 。 每 个 廊 点 都 可 以 放 
入 到 如 下 3 种 实例 组 中 的 一 组 中 。 


1. 管理 者 实例 组 


这 个 实例 组 只 含有 一 个 节点 ， 称 之 为 管理 者 节点 。 这 个 管理 者 贡 
点 和 Hadoop 的 master 世 点 的 功能 是 相同 的 。 其 上 面 运行 着 namenode 和 
jobtracker 守 护 进 程 ， 不 过 这 上 面 还 安装 有 Hive。 男 外 ， 其 上 还 安装 有 
一 个 MySQL 服 务 器 ， 其 被 配置 为 EMR Hive 的 元 数据 存储 。 (Apache 
Hive 中 默认 是 使 用 Derby 作 为 元 数据 存储 的 ， 这 里 不 会 使 用 这 个 。) 在 
管理 者 市 点 上 还 运行 着 一 个 实例 管理 器 。 其 用 于 在 其 他 2 种 实例 组 中 执 
行 和 管理 其 他 实例 。 需 要 注意 的 是 这 个 实例 管理 右 同 样 会 使 用 到 管理 
者 方 点 上 的 MySQL 服 务 器 。 如 有 果 这 个 MySQL 服 务 名 不 可 用 的 话 ， 那 
么 这 个 实例 控制 右 残 无 法 执行 和 管理 实例 。 


2. 核心 实例 组 


核心 实例 组 中 的 节点 和 Hadoop slave 广 点 的 具有 相同 的 功能 ， 会 同 
时 启动 datanode 和 tasktracker 守 护 进 程 。 这 些 广 点 用 于 MapReduce 任 务 
计算 ， 同 时 也 用 于 HDFS 存 储 。 一 旦 集群 启动 ， 这 个 实例 组 内 的 节点 
个 数 只 能 增 不 能 减 。 需 要 特别 注意 的 是 ， 一 旦 集群 终止 了 ， 这 些 市 点 
上 存储 的 数据 就 会 丢失 。 


3. 任务 (task) 实例 组 


这 是 一 个 可 选 的 实例 组 。 在 本 组 中 的 和 点 同样 具有 Hadoop 中 salve 
节点 的 功能 。 不 过 ， 它 们 只 执行 tasktracker 进 程 。 因 此 ， 这 些 节 点 用 于 
MapReduce 任 务 (task) ， 但 无 法 用 于 存储 HDFS 数 据 块 。 集 群 启动 
后 ， 任 务 (task) 实例 组 内 的 节点 个 数 可 能 有 时 增加 ， 有 时 减少 。 


当 用 户 在 高 峰 期 的 那儿 个 小 时 增加 集群 处 理 能 力 ， 然 后 再 调整 到 
正常 情况 时 ， 使 用 任务 (task) 实例 组 是 非常 便利 的 。 同 样 对 于 那些 
既 布 望 可 以 低 成 本 使 用 现 买 现 卖 实例 ， 而 又 期 望 当 集群 中 节点 被 移 除 
后 不 会 有 丢失 数据 的 风险 的 情况 ， 同 样 是 适用 这 种 解决 办 法 的 。 


如 采用 户 使 用 的 是 单 点 集群 的 话 ， 那 么 这 个 市 点 将 同时 是 管理 者 
节点 和 核心 节点 。 


21.7 ”配置 EMR 集 群 


在 使 用 EMR 集 群 时 ， 用 户 经 党 需要 部 署 目 己 的 配置 文件 。 一 般 要 
配置 的 文件 有 hive-site.xm、.hiverc、hadoop-envsh。Amazon 提 供 了 一 
种 方式 来 重 载 这 些 配置 文件 。 


21.7.1 部署 hive-site.xml 文 件 
为 了 重 载 hive-site.xml 文 件 ， 首 移 需 要 上 传 用 户 目 定义 hive-site.xml 
文件 到 S3 中 。 我 们 假设 其 已 经 上 传 到 S3 中 如 下 路 径 : 


s3n://example.hive.oreilly.com/tables/hive_site.xml ° 


a 


a 
ts 


建议 使 用 最 新 s3n“ 模 式 ” 来 访问 S3， 其 比 之 前 的 s3 模 式 具 有 更 
高 的 性 能 。 


如 果 用 户 是 通过 elastic-mapreduce Ruby 客 户 问 来 启动 集群 的 话 ， 
0 类 似 如 下 的 命令 使 用 用 户 目 定义 的 hive-site.xml 来 分 割 集 


elastic-mapreduce --create --alive --name "Test Hive" --hive-interactive \ 


--hive-site=s3n://example.hive.oreilly.com/conf/hive_site.xm 


如 果 用 户 是 使 用 SDK 来 分 割 集群 的 话 ， 那 么 可 以 使 用 合适 的 方法 
来 重 载 hive-site.xml 文 件 。 在 引导 程序 之 后 ， 用 户 需 要 2 个 配置 步骤 。 
其 一 是 安装 Hive， 其 二 是 部 署 hive-site.xml 文 件 。 第 1 个 步骤 安装 Hive 
需要 同时 调 用 --install-hive 和 --hive-versions， 后 者 的 值 是 使 用 逗号 分 割 

符 的 期 望 安装 到 集群 中 的 Hive 版 本 列表 。 


第 2 个 步 又 是 安装 Hive site 配 置 文件 ， 使 用 的 命令 是 --install-hive- 
site， 其 后 跟着 一 个 参数 如 --hive- 
site=s3n://example. I oreilly.com/tables/hive_site.xml， 来 指定 要 使 用 
的 hive-site.xml 文 件 所 在 的 位 置 。 


21.7.2 ”部 署 .hiverc 脚 本 


对 于 .hiverc， 用 户 同 样 需 要 先 将 其 上 传 到 S3 中 。 然 后 用 户 可 以 使 
用 配置 过 程 或 者 在 引导 程序 来 将 这 个 文件 部 署 到 集群 中 。 需 要 注意 的 
1 以 部 嗜 到 用 户 根 目 未 下， 或 者 部 闭 在 Hive 安 疼 目 永 下 的 bin 


1. 使 用 配置 步骤 部 署 .hiverc 脚 本 


在 写本 篇 时 ，Amazon 提 供 的 名 为 hive-script 的 Ruby 脚本 还 没有 提 
供 重 载 .hiverc 文 件 的 功能 ， 这 个 脚本 可 以 在 如 下 地 址 查看 到 : s3n://us- 


east-1.elasticmapreduce/libs/hive/hive-script ° 


因此 ， 无 法 像 安 狂 hive-site.xml 文 件 那 么 轻松 地 安装 .hiverc 文 件 。 
不 过 ， 如 果 用 户 不 介意 修改 Ruby 代 码 的 话 ， 通 过 简单 修改 Amazon 提 
供 的 hive-script 脚 本 是 可 以 局 用 安 逆 .hiverc 的 。 进 行 这 样 的 修改 之 后 ， 
需要 将 这 个 文件 上 传 到 S3， 然 后 使 用 这 个 版 本 而 非 Amazon 提 供 的 版 本 
即 可 。 修 改 脚本 后 可 以 将 .hiverc 安 闭 到 用 户 的 根 目 永 下 或 者 Hive 安 钱 
目录 下 的 bin 目 录 下 。 


2. 使 用 辅助 工具 脚本 部 署 .hiverc 脚 本 


或 者 ， 用 户 可 以 创建 一 个 自 定义 的 引导 程序 脚本 来 将 .hiverc 文 件 
传送 到 管理 者 节点 的 用 户 根 目录 下 或 Hive 的 安装 目录 下 的 bin 目 录 下 。 
在 这 样 的 脚本 中 ， 用 户 应 该 首先 使 用 S3 访 问 码 配置 集群 上 的 sS3cmd 脚 
本 ， 用 户 也 需要 使 用 这 个 S3 访 问 码 才能 从 S3 下 载 .hiverc 文 件 。 然 后 ， 
下 这 样 的 简单 命令 来 从 S3 中 下 载 文件 ， 并 将 其 部 署 到 用 户 


S3cmd get s3n://example.hive.oreilly.com/conf/.hiverc ~/ .hiverc 


然后 在 集群 创建 过 程 中 使 用 一 个 引导 程序 动作 来 调用 这 个 脚本 ， 
这 和 设置 其 他 的 引导 程序 动作 是 一 样 的 。 


21.7.3 ”建立 一 个 内 存 密 集 型 配置 
如 果 用 户 执行 的 是 一 个 内 存 密集 型 的 任务 (Job) ，Amazon 提 供 


了 一 些 预 定义 的 引导 程序 动作 可 用 于 调 优 Hadoop 配 置 参 数 。 例 如 ， 在 
划分 集群 的 时 候 可 以 使 用 memory-intensive 引 导 程 序 动作 ， 可 以 在 


elastic-mapreduce -create 命令 后 使 用 如 下 的 标记 (为 显示 美观 ， 进 行 
了 换行 ) : 


--bootstrap-action 


s3n://elasticmapreduce/bootstrap-actions/configurations/latest/memory-intensive 


21.8 EMR 上 的 持久 层 和 元 数据 存储 


EMR 集 群 本 喘 开 始 时 束 会 在 集群 的 管理 者 节点 上 安 骏 一 个 MySQL 
服务 器 。 默 认 情 况 下 ，EMR Hive 使 用 这 个 MySQL 服 务 器 作为 元 数据 
存储 。 不 过 ， 当 这 个 集群 币 用 户 终止 后 所 有 存在 节点 上 的 数据 也 将 会 
被 清空 ! 这 通常 是 不 可 接受 的 。 因 为 用 户 需要 将 表 模 式 等 信息 保持 在 
一 个 稳固 的 元 数据 存储 上 。 


用 户 选 取 使 用 如 下 多 种 方法 中 的 一 种 来 绕 过 这 个 限制 。 
1 . 使 用 MR 集 群 外 的 稳固 的 元 数据 存储 


在 第 2.5.3 节 “使 用 JDBC 连 接 元 数据 存储 ”中 我 们 已 经 介绍 过 了 如 何 
在 Hive 中 安装 使 用 外 部 元 数据 存储 。 用 户 可 以 选用 基于 MySQL 的 
Amazon RDS (关系 型 数据 服务 ) ， 或 者 其 他 内 部 数据 库 服务 器 来 作 
为 元 数据 存储 。 当 用 户 期望 多 个 EMR 集 群 使 用 同一 个 元 数据 存储 或 者 
人 这 是 可 以 采取 的 最 好 的 选 
尘 。 


2 . 使 用 初始 化 脚本 
如 采用 户 不 期 户 使 用 外 部 数据 库 服务 右 来 作为 元 数据 存储 的 话 ， 


那么 用 户 同 样 可 以 结合 用 户 初 始 化 脚本 来 使 用 管理 者 入 点 上 的 元 数据 
人 。 用户 可 以 将 类 似 如 下 的 创建 表 语 句 保存 在 名 为 startup.q 的 文件 


CREATE EXTERNAL TABLE IF NOT EXISTS emr_table(id INT, value STRING ) 
PARTITIONED BY (dt STRING ) 


LOCATION 's3n://example.hive.oreilly.com/tables/emr_table'; 


很 有 必要 在 创建 表 语 句 中 使 用 IF NOT EXISTS 语 句 ， 来 确保 不 会 
删除 管理 者 节点 元 数据 存储 中 由 之 前 初始 化 脚本 创建 好 的 同名 的 表 。 


到 这 里 ， 我 们 已 经 在 元 数据 存储 中 创建 好 表 结 构 信 息 了 ， 但 是 我 
们 还 没有 加 入 分 区 信息 。 在 startup.q 文 件 中 创建 表 语句 后 加 入 如 下 一 行 


全 公 
HH “x 即 可 : 
ALTER TABLE emr_table RECOVER PARTITIONS ， 


这 行 命令 可 以 在 元 数据 存储 中 补 全 所 有 的 分 区 元 数据 信息 内 容 。 
除了 使 用 用 户 自 定义 的 初始 化 脚本 外 ， 还 可 以 使 用 .hiverc 达 到 同样 的 
效果 ， 这 个 文件 在 Hive CLI 启 动 时 会 自动 执行 一 遍 。 (我 们 将 在 第 
21.14 节 “EMR 和 EC2 以 及 Apache Hive 的 比较 ”中 进行 讨论 。) 


使 用 .hiverc 的 好 处 是 其 可 以 被 目 动 调用 。 而 缺点 是 ， 每 次 执行 ， 
He 


使 用 用 户 目 定 义 初 始 化 脚本 的 好 处 是 ， 用 户 可 以 在 工作 流 的 执行 
周期 中 进行 更 有 效 的 控制 。 不 过 ， 用 户 需 要 目 己 控制 这 个 调用 。 无 论 
如 何 ， 使 用 一 个 保存 Hive 语 句 的 文件 来 用 于 初始 化 有 一 个 附带 的 好 处 
古 ， 用 户 可 以 通过 版 本 控制 来 跟踪 DDL 变 更 情况 。 


ee 4 提示 
当 表 和 分 区 变 得 很 多 时 ， 元 数据 信息 将 变 得 更 多 ， 这 样 这 个 
系统 中 的 初始 化 脚本 执行 的 时 间 就 会 越 来 越 长 。 因 此 如 果 表 或 分 
区 非常 多 ， 不 建议 使 用 这 种 方法 。 
3. 在 S3 上 进行 MySQL dump 操 作 
还 有 一 种 方式 〈 尽 管 麻烦 ) ， 就 是 在 集群 终止 之 前 对 元 数据 存储 
进行 备份 ， 然 后 在 下 一 个 工作 流 开始 时 恢复 到 元 数据 存储 中 。S3 在 集 
群 未 使 用 时 执行 这 个 备份 是 最 合适 不 过 了 。 
需要 注意 的 是 ， 这 个 元 数据 存储 并 不 能 在 EMR 集 群 上 支持 的 多 个 


版 本 Hive 共 用 。 假 设 用 户 划 分 出 一 个 集群 ， 其 中 安 猴 有 Hive 0.5.0 和 
v0.7.1 2 个 版 本 的 话 。 当 用 户 使 用 Hive v0.5 创 建 了 一 张 表 后 ， 那 么 是 无 


法 使 用 Hive v0.7.1 来 访问 这 张 表 的 。 如 果 用 户 期 望 多 个 Hive 版 本 共用 
同一 个 元 数据 存储 ， 用 户 必需 要 使 用 一 个 外 部 稳固 的 元 数据 存储 。 


21.9 ”EMR 集群 上 的 HDFS 和 S3 


在 EMR 集 群 中 HDFS 和 S3 都 有 其 独特 的 角色 。 当 集群 终止 后 其 上 
所 有 的 数据 都 会 被 清除 掉 。 因 为 HDFS 是 由 核心 实例 组 中 的 临时 存储 
节点 组 成 的 ， 所 以 当 集 群 终止 后 HDFS 上 存储 的 数据 会 全 部 丢失 。 


从 另 一 方面 来 说 ，S3 提 供 了 一 个 和 EMR 集 群 相关 联 的 持久 性 存 
储 。 不 过 ， 集 群 中 的 输入 数据 必须 是 存储 在 $S3 上 的 数据 ， 而 Hive 处 理 
过 程 产生 的 最 终结 末 同 时 也 必须 持久 化 到 S3 中 。 不 管 怎 样 ，S3 是 
HDFS 的 一 个 昂 贯 的 蔡 代 存储 方案 。 不 过 ， 处 理 过 程 中 的 中 间 数 据 应 
该 存储 在 HDFS 中 ， 而 只 有 需要 持久 化 的 最 终结 果 才 存储 到 S3 中 。 


需要 注意 的 一 点 是 ， 如 果 使 用 S3 作 为 输入 数据 源 的 话 ， 存 在 一 个 
缺点 就 是 ， 无 法 使 用 Hadoop 的 本 地 化 数据 处 理 优化 ， 其 伞 来 的 性 能 
现 可 能 是 非常 显著 的 。 如 果 对 于 用 户 的 分 析 来 说 这 个 功能 是 非常 必要 
的 ， 那 么 建议 最 好 在 处 理 前 从 S3 中 将 这 些 “ 热 ”数据 导入 到 HDFS 中 ， 然 
后 再 进行 处 理 。 通 过 这 个 初始 过 程 ， 就 可 以 在 后 续 的 处 理 中 使 用 
Hadoop 的 本 地 处 理 优化 。 


21.10 ”在 S3 上 部 署 资源 、 配置 和 辅助 程序 脚本 


用 户 需 要 将 所 有 的 初始 化 脚本 、 配 置 脚本 (例如 hive-site.xml 
和 .hiverc 文 件 ) 、 资 源 文件 〈 例 如 需要 载 入 到 分 布 式 缓存 中 的 文件 、 
UDF 或 者 streaming 使 用 到 的 JAR 文 件 等 ) 等 上 传 到 S3 中 。 因 为 EMR 
Hive 和 Hadoop 安 装 原 生地 就 可 以 处 理 $3 路 径 ， 所 以 在 随后 的 Hadoop 处 
理 任 务 中 可 以 直接 使 用 这 些 文件 。 


pn 用 户 可 以 将 如 下 几 行 命令 增加 到 .hiverc 文 件 中 ， 其 可 以 正 
党 执行 : 


ADD FILE s3n://example.hive.oreilly.com/files/my_file.txt,; 
ADD JAR s3n://example.hive.oreilly.com/jars/udfs.jar; 


CREATE TEMPORARY FUNCTION my_count AS 'com.oreilly.hive.example.MyCount'; 


21.11 S3 上 的 日 志 


Amazon EMR 会 将 日 志 写 入 到 log-uri 字 段 所 指 同 的 S3 路 径 下 。 其 
中 包含 有 集群 引导 程序 动作 所 产生 的 日 志和 在 不 同 的 集群 节点 上 执行 
的 守护 进程 所 产生 的 日 志 。log-uri 这 个 配置 项 可 以 在 elastic-mapreduce 
Ruby 客 户 端 安装 目录 下 的 credentials.json 文 件 中 进行 配置 ;或 者 也 可 以 
在 使 用 elastic-mapreduce 划 分 集群 时 ， 使 用 --log-uri 标 记 显 式 地 进行 指 
定 。 如 果 这 个 内 容 没 有 设置 的 话 ， 那 么 惑 无 法 在 $3 中 获得 那些 日 志 。 


如 条 用 户 设置 的 工作 流 一 旦 认为 遇 到 错误 惑 终止 掉 的 话 ， 那 么 在 
集群 终止 后 会 丢失 所 有 存放 在 集群 上 的 日 志 信 息 。 如 果 用 户 指定 了 
log-uri 配 置 的 值 ， 那 么 即使 集群 终止 摊 了 ， 还 是 可 以 在 $S3 上 指定 的 路 
径 下 找到 这 些 日 志 的 。 这 些 日 志 可 以 帮助 用 户 确认 产生 失败 的 原因 ， 
帮助 解决 问题 。 


不 过 ， 如 果 用 户 将 日 志保 存在 S3 中 要 记 住 尽 量 频繁 地 将 不 需要 的 
日 志清 除 掉 以 减少 产生 不 必要 的 存储 成 本 ! 


21.12” 现 买 现 卖 


现 买 现 卖 业务 允许 用 户 随 着 需求 的 变化 获得 更 低 的 价格 来 使 用 
Amazon 实 例 。Amazon 的 在 线 文档 对 其 有 着 非常 详细 的 描述 。 


假设 根据 实际 使 用 情况 ， 用 户 硕 望 所 具有 的 3 个 实例 组 是 现 闫 现 卖 
的 。 在 这 种 情况 下 ， 在 工作 流 的 任意 一 个 阶段 都 是 可 能 导致 集群 终止 
的 ， 这 样 束 会 导致 丢失 中 间 临 时 数据 。 如 琳 重 新 进行 这 个 计算 很 “ 便 
宜 ” 的 话 ， 那 么 这 可 能 并 非 是 个 严重 的 问题 。 一 种 解决 办 法 殉 是 将 中 间 
数据 持久 化 到 S3 中 ， 那 么 任务 束 可 以 从 这 些 镜 像 中 重新 执行 了 。 


男 一 种 方式 束 古 只 将 任务 实例 组 的 太 点 作为 现 闫 现 卖 方 点 。 如 果 
这 些 现 买 现 卖 节点 因为 无 效 或 者 因为 现 买 现 卖 价格 增长 而 剔除 出 集群 
的 话 ， 原 来 的 工作 流 在 管理 者 和 核心 节点 上 还 可 以 继续 执行 ， 而 且 不 
会 有 数据 丢失 。 现 买 现 卖 三 点 重新 加 入 到 集群 中 后 ，MapReduce 任 务 
可 以 侦 测 到 它们 ， 可 以 加 快 整个 工作 流 。 


使 用 elastic-mapreduce Ruby 客 户 端 ， 现 买 现 卖 实 例 可 以 通过 --bid- 
price 选 项 指定 一 个 权重 来 进行 排序 。 下 面 这 个 例子 展示 了 如 何 创 建 一 


个 具有 单个 管理 者 、2 个 核心 节点 和 2 个 现 买 现 卖 节点 (位 于 任务 实例 
组 ) 的 集群 ， 并 为 其 指定 权重 为 10 美 分 : 


elastic-mapreduce --create --alive --hive-interactive \ 
--name "Test Spot Instances" \ 
--instance-group master --instance-type mi.large \ 


--instance-count 1 --instance-group core \ 
--instance-type mi.small --instance-count 2 --instance-group task \ 
--instance-type mi.small --instance-count 2 --bid-price 0.10 


如 采用 户 使 用 Java SDK 划 分 一 个 微 集群 的 话 ， 那 么 可 以 使 用 下 面 
的 GroupConfig 实 例 配置 管理 者 、 核 心 和 任务 实例 组 : 


InstanceGroupConfig masterConfig = new InstanceGroupConfig() 
.withInstanceCount(1) 

.withInstanceRole("MASTER") 

.withInstanceType("mi.1large"); 

InstanceGroupConfig coreConfig new InstanceGroupConfig() 
.withInstanceCount(2) 

.withInstanceRole("CORE") 


.withInstanceType("mi1.small"); 

InstanceGroupConfig taskConfig new InstanceGroupConfig() 
.withInstanceCount(2) 

.withInstanceRole("TASK") 

.withInstanceType("mi.small") 

.withMarket("SPOT") 

.withBidPrice("0.05"); 


如 果 某 个 map 或 者 reduce 任 务 (task) 失败 了 ，Hadoop 束 需要 
重新 启动 它们 。 如 果 同 一 个 task 失 败 了 4 次 (可 配置 的 ， 可 以 通过 
设置 MapReduce 属 性 mapred.map.max.attempts 修 改 map 任 务 的 最 多 
党 斌 次数; 通过 修改 mapred.reduce.max.attempts 可 以 修改 reduce 任 
务 的 最 多 尝试 次 数 ) ， 那 么 整个 任务 (job) 就 会 失败 。 如 果 依 赖 
于 太 多 的 现 买 现 卖 实例 的 话 ， 那 么 用 户 的 任务 (job) 可 能 会 因为 
出 集群 导致 无 法 推测 执行 或 导致 整个 任务 

job 凡 。 


21.13 ”安全 组 


Hadoop 的 JobTracker 和 NameNode 用 户 接 口 可 以 在 EMRmaster 世 点 
上 分 别 在 端口 9 100 和 9 101 上 被 访问 到 。 用 户 可 以 通过 ssh 隧 道 或 者 使 
用 动态 SOCKS 代 理 来 访问 它们 。 


为 了 在 用 户 客户 端 机 器 上 (在 Amazon 网 络 之 外 ) 通过 浏览 器 访问 
到 这 些 信息 ， 用 户 需 要 通过 AWS 网 页 控制 台 对 Elastic MapReduce 管 理 
考 安 全 组 进行 修改 ， 增 加 一 个 新 的 用 户 上 自 定义 TCP 规 则 将 客户 端 机 履 
的 IP 在 9 100 和 9 101 端 口上 进行 绑 定 即 可 。 


21.14 EMR 和 EC2 以 及 Apache Hive 的 比较 


对 于 EMR 的 一 个 弹性 的 蔡 代 方式 就 是 引入 多 个 Amazon EC2 市 
点 ， 并 将 Hadoop 和 Hive 安 装 在 一 个 定制 的 Amazon 机 器 映像 (AMI) 
中 。 这 种 方式 使 用 户 可 以 更 好 地 对 Hadoop 和 Hive 的 版 本 和 配置 进行 控 
J 如 ， 用 户 可 以 在 EMR 发 布 某 个 工具 最 新 版 本 之 前 尝试 使 用 其 新 


这 种 方式 的 一 个 缺点 是 ，EMR 发 布 的 定制 版 可 能 在 Apache Hive 发 
行 版 中 并 没有 包含 。 例 如 ， 目 前 Apache Hive 还 无 法 完全 支持 S3 文 件 系 
统 (请 参考 JIAR HIVE-2318) 。 对 于 Amazon S3 查 询 还 存在 一 个 优 
化 ， 用 于 减少 初始 化 时 间 。 这 个 功能 只 包含 在 EMR Hive 中 。 通 过 增加 
如 下 配置 到 hive-site.xml 文 件 中 ， 可 以 开启 此 优化 : 


<property> 
<name>hive.optimize,.s3.query</name> 
<value>true</value> 


<description> Improves Hive query performance for Amazon S3 queries 
by reducing their start up time </description> 
</property> 


同样 地 ， 也 可 也 在 Hive CLI 中 执行 如 下 命令 启用 此 功能 : 


还 有 一 个 例子 展示 的 是 ， 如 果 在 HDFS 或 S3 中 的 目录 结构 是 正确 
的 话 ， 那 么 可 以 通过 命令 目 动 补 全 元 数据 存储 中 的 分 区 信息 。 当 外 部 
处 理 程序 生成 Hive 表 的 分 区 目 孙 时 ， 使 用 这 种 方式 补 全 元 数据 是 非常 
方便 的 。 通 过 如 下 命令 即 可 达到 这 个 效果 ， 其 中 emr_table 十 表 和 名: 


下 面 是 一 个 创建 表 的 语句 ， 供 参考 : 


CREATE EXTERNAL TABLE emr_table(id INT, value STRING ) 
PARTITIONED BY (dt STRING ) 


LOCATION 's3n://example.hive.oreilly.com/tables/emr_table'; 


21.15 ”包装 


Amazon EMR 提 供 了 一 个 弹性 的 、 可 扩展 的 、 安 装配 置 简 单 的 方 
式 来 搭建 一 个 Hadoop 和 Hive 集 群 ， 启 动机 妖 束 可 以 执行 查询 。 对 于 存 
储 在 S3 上 的 数据 同样 是 可 以 操作 的 。 尽 管 大 多 数 的 配置 已 经 为 用 户 设 
置 好 了 ， 用 户 还 是 有 足够 的 灵活 的 方式 进行 一 些 自 定义 的 配置 。 


第 22 章 HCatalog 
22.1 介绍 


在 Hadoop 中 使 用 Hive 进 行 数据 处 理 ， 除 了 可 以 提供 一 种 类 SQL 的 
语言 供 使 用 外 ， 还 提供 了 其 他 多 个 不 锯 的 功能 。Hive 可 以 存储 元 数 
据 ， 这 意味 着 用 户 不 需要 记 住 数 据 的 模式 (schema) 信息 ， 同 时 ， 也 
意味 着 用 户 无 需 关 注 数据 实际 存储 在 哪里 ， 以 及 以 什么 样 的 存储 格式 
进行 存储 的 。 这 束 使 得 数据 生产 者 、 数 据 消费 者 和 数据 管理 者 之 间 相 
分 离 。 数 据 生 产 者 可 以 往 数 据 中 新 增 一 列 ， 而 不 会 破坏 数据 消费 者 们 
的 数据 只 读 应 用 。 数 据 管理 者 可 以 重 置 数据 来 修改 存储 格式 ， 而 无 需 
修改 数据 生产 者 或 者 数据 消费 着 的 应 用 。 


大 部 分 的 资深 Hadoop 用 户 不 会 仅 使 用 一 种 工具 来 进行 数据 生产 和 
数据 消费 。 通 常 ， 用 户 都 会 以 如 下 工具 中 的 一 种 来 开始 使 用 Hadoop: 
Hive、Pig、MapReduce 或 者 其 他 工具 。 当 用 户 对 于 Hadoop 的 使 用 越 来 
越 深 入 后 ， 他 们 将 会 发 现 他 们 所 选择 的 工具 并 非 是 处 理 新 任务 的 最 优 
选择 。 对 于 刚 开 始 使 用 Hive 进 行 分 析 型 查询 的 用 户 来 说 ， 他 们 可 能 会 
发 现在 进行 ETL 处 理 或 构建 数据 模型 时 使 用 Pig 会 更 好 。 而 对 于 从 Pig 入 
人 


尽管 像 Pig 和 MapReduce 这 样 的 工具 是 不 需要 元 数据 的 ， 但 是 如 果 
提供 了 元 数据 信息 的 话 也 是 有 好 处 的 。 共 享 同一 个 元 数据 库 可 以 使 用 
户 在 多 种 工具 间 更 容易 地 共享 数据 。 使 用 MapReduce 或 者 Pig 加 载 和 归 
一 化 数据 ， 然 后 使 用 Hive 来 进行 分 机 ， 这 样 的 工作 流 是 非常 毅 见 的 。 
当 所 有 的 工具 共享 使 用 同一 个 元 数据 存储 时 ， 每 种 工具 的 用 户 都 可 以 
立即 访问 到 由 其 他 工具 产生 的 数据 ， 而 无 需 其 他 加 载 或 者 转换 步骤 。 


HCatalog 的 存在 就 是 为 了 满足 这 些 需 要 的 。 其 可 以 使 Hive 的 元 数据 
存储 为 基于 Hadoop 的 其 他 工具 所 共用 。 其 为 MapRedcue 和 Pig 提 供 了 连 
接 器 ， 这 样 用 户 就 可 以 使 用 那些 工具 ， 从 Hive 数 据 仓库 中 读 取 和 写 入 
数据 。 其 还 提供 了 一 个 命令 行 工 具 ， 便 于 没有 使 用 Hive 的 用 户 通 过 
Hive DDL 语 句 操 作 元 数据 存储 。 其 还 提供 了 一 个 消息 通知 服务 ， 这 样 


对 于 Oozie 这 样 的 工作 流 工具 ， 在 数据 仓库 提供 新 数据 时 ， 可 以 通知 到 
这 些 工 作 流 工具 。 


HCatalog 是 相对 独立 于 Hive 的 一 个 独立 的 Apache 项 目 。 其 是 Apache 
孵化 器 的 一 部 分 ， 大 多 数 的 Apache 项 目 都 是 从 这 个 孵化 恬 中 开始 的 。 
其 有 助 于 为 其 内 部 的 项 目 构建 社区 并 学 习 如 何 开 发 Apache 开 源 软件 。 

在 写本 书 时 ， 最 新 的 版 本 是 HCatalog 0.4.0-incubating 。 


这 个 版 本 适用 于 Hive 0.9、Hadoop 1.0 和 Pig 0.9.2。 


( 译 者 注 : HCatalog 日 前 已 经 合并 到 Apache Hive 中 了 ， 在 Apache 
Hive 0.10.0 正 式 引 入 了 Hocatalog。 ) 


22.2 MapReduce 


22.2.1 ”读数 据 


MapReduce 使 用 Java 类 InputFormat 来 读 取 输入 数据 。 绝 大 多 数 情况 
下 ， 这 些 类 会 直接 从 HDFS 中 读 取 数据 。InputFormat 的 一 些 实现 类 同样 
提供 了 从 HBase、Cassandra 和 其 他 数据 源 读 取 数 据 的 功能 。 
InputFormat 的 任务 是 双重 的 。 百 和 完 ， 其 决定 了 数据 是 如 何 划 分 成 数据 
片 然 后 为 MapReduce 的 map 任 务 (task) 所 并 行 处 理 的 。 其 次 ， 其 提供 
了 一 个 RecordReader，MapReduce 使 用 这 个 类 来 从 输入 数据 源 中 读 取 记 
孙 ， 然 后 将 其 转换 成 键 和 值 来 供 map 任 务 (task) 进行 处 理 。 


HCatalog 提 供 了 一 个 HCatInputFormat 类 来 供 MapReduce 用 户 从 Hive 
的 数据 仓库 中 读 取 数据 。 其 允许 用 户 只 读 取 需 要 的 表 分 区 和 字段 。 同 
0 ， 这 样 就 不 需要 用 户 来 进行 
人 了: 


栗 二 
a | 
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HCatInputFormat 实 现 了 Hadoop 0.20 API， 也 就 是 
org.apache.hadoop. mapreduce， 而 不 是 Hadoop 0.18 的 
org.apache.hadoop.mapred API。 这 是 因为 其 需要 MapReduce (0.20) 
API 中 新 增 的 某 些 功能 。 这 意味 着 MapReduce 用 户 需 要 使 用 这 些 接 


口 来 和 HCatalog 进 行 交 互 。 不 过 ，Hive 所 需要 的 用 于 从 磁盘 读 取 数 

据 的 InputFormat 也 可 以 是 旧 的 mapred 下 的 接口 实现 的 。 因 此 如 果 

用 户 当 前 使 用 的 数据 的 格式 是 使 用 MapReduce InputFormat 的 话 ， 

那么 就 可 以 使 用 HCatalog。InputFormat 这 个 类 在 新 接口 mapreduce 

API 中 是 一 个 类 ， 而 在 旧 接 口 mapred API 中 是 一 个 接口 ， 不 过 前 面 

都 是 将 其 作为 类 进行 引用 的 。 

在 初始 化 HCatInputFormatH 时 ， 首 先 要 做 的 事情 束 古 指定 要 读 取 的 

表 。 通 过 创建 一 个 mputJobInfo 类 ， 然 后 指定 数据 库 、 表 和 分 区 过 滤 条 
件 束 可 以 达到 这 个 目地 。 


* Initializes a new InputJobInfo 

* for reading data from a table. 

* @param databaseName the db name 

* @param tableName the table name 

* @param filter the partition filter 
*/ 


public static InputJobInfo create(String databaseName, 
String tableName, 
String filter) { 


} 


databaseName 表 示 表 所 在 的 Hive 数 据 库 (或 模式 schema) 。 如 果 这 
个 值 为 nul， 那 么 就 会 使 用 默认 的 名 为 default 的 数据 库 。tableName 表 示 
将 要 读 取 的 表 的 表 名 。 它 必须 是 非 null 的 ， 而 且 必 须 是 Hive 中 实际 存在 
的 一 张 表 。fiter 表 示 用 户 期 望 读 取 哪些 分 区 下 的 数据 。 如 果 这 个 值 为 
null 的 话 ， 那 么 将 读 取 整个 表 。 这 些 需要 特别 小 心 ， 因 为 读 取 一 张大 表 
的 所 有 分 区 将 会 导致 扫 摘 大 量 的 数据 。 


过 滤器 的 格式 类 似 于 类 SQL 的 where 语 名 部分。 这 里 应 该 只 允许 指 
定 分 区 字段 例如， 假设 要 读 取 的 分 区 表 的 分 区 字段 名 为 datestamp， 
那么 过 滤器 可 能 就 类 似 于 datestamp = "2012-05-26" 这 样 的 格式 。 过 渡 
俐 可 以 包含 有 =、>、>=、<、<=、and 和 or 操作 符 。 


对 于 Hive v0.9.0 和 之 前 的 版 本 ， 在 ORM 了 映射 层 存在 一 个 bug， 会 导 
致 对 于 >、>=、< 或 <= 这 样 的 过 滤 条 件 执行 失败 。 


本 二 
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可 以 通过 https://issues.apache.org/jira/browse/HIVE-2084 获 取 
HIVE-2084.D2397.1.patch 并 将 这 个 patch 打 到 用 户 当前 的 Hive 版 本 
上 ， 然 后 重新 编译 ， 就 可 以 解决 这 个 问题 。 这 确实 会 存在 一 些 风 
险 ， 不 过 这 取决 于 用 户 是 如 何 部 署 Hive 的 。 在 这 个 JIRA 下 可 以 查 
看 到 一 些 讨论 信息 。 


对 于 InputJobInfo 实 例 和 包含 MapReduce 任 务 (job) 的 Job 实 例 ， 可 
通过 HCatInputFormat 有 的 setInput 将 其 传递 给 HCatInputFormat 。 


Job job = new Job(conf, "Example"); 


InputJobInfo inputInfo = InputJobInfo.create(dbName, inputTableName, filter)); 
HCatInputFormat.setInput(job, inputInfo); 


map 任 务 (task) 需要 指定 值 的 类 型 是 HCatRecord 的 。 键 的 类 型 并 
不 重要 ， 因 为 HCatalog 并 不 会 将 键 提 供给 map 任 务 (task) 。 例 如 ,一 
个 通过 HCatalog 读 取 数 据 的 map 任 务 (task) 可 能 是 如 下 形式 的 : 


public static class Map extends 
Mapper<writableComparable, HCatRecord, Text, Text> { 


Q@Override 

protected void map( 

WritableComparable key, 

HCatRecord value, 

org.apache.hadoop.mapreduce.Mapper<wWritableComparable, 
HCatRecord, Text, HCatRecord>.Context context) { 


Sy 


} 


HCatRecord 是 HCatalog 提 供 的 一 个 用 于 和 记录 交互 的 类 。 其 提供 了 
人 简单 的 get 和 set 方 法 ， 可 以 通过 位 置 或 者 名 称 来 获取 记录 。 如 有 果 是 通过 
列 名 获取 字段 内 容 的 话 ， 那 么 就 必须 提供 表 的 模式 (schema) 信息 ， 
因为 每 个 独立 的 HCatRecord 都 不 会 保存 一 份 这 个 表 模 式 (schema) 的 
引用 信息 。 可 以 通过 HCatInputFormat.getOutputSchema() 方 法 获取 到 表 
模式 信息 。 因 为 Java 不 允许 按照 返回 值 类 型 进行 方法 重 载 ， 对 于 不 同 的 
数据 类 型 都 需要 提供 其 相应 的 get 和 和 set 方法 。 这 些 方法 使 用 的 是 类 型 对 
象 而 非 标 量 类 型 (也 就 是 说 使 用 java.lang.Integer 这 样 的 Java 对 象 ， 而 不 
是 像 int 这 样 的 标量 ) 。 这 就 介 许 将 null 作 为 一 个 值 来 表示 。 同 时 还 提供 
了 对 Java 对 象 的 get 和 set 方 法 实现 。 


// get the first column, as an Object and cast it to a Long 
Long cnt = record.get(0); 


// get the column named "cnt" as a Long 
Long cnt = record.get("cnt", schema); 


// set the column named "user" to the string "fred" 
record.setString("user", schema, "fred"); 


通常 程序 不 需要 读 取 一 个 输入 的 所 有 字段 内 容 。 在 这 种 情况 下 ， 
尽早 尽快 地 去 除 掉 不 需要 的 字段 很 有 意义 。 这 对 于 像 RCFile 这 样 的 列 
式 存 储 更 是 有 花 的 ， 越 早 过 滤 掉 不 需要 的 字段 束 意 味 着 从 人 磁 强 读 取 更 
少 的 数据 。 这 可 以 通过 传递 一 个 描述 所 需 字 段 的 模式 来 完成 。 这 个 过 
程 必须 在 job 配置 时 间 内 完成 。 如 下 这 个 例子 将 配置 用 户 的 job 只 读 取 2 


个 字段 ， 字 段 名 分 别 是 user 和 url: 


HCatSchema baseSchema = HCatBaseInputFormat .getoutputSchema(context ) ， 
List<HCatFieldSschema> fields = new List<HCatFieldschema>(2); 
fields.add(baseschema.get("user")); 


fields.add(baseschema.get("url")); 
HCatBaseInputFormat.setOutputSchema(job, new HCatSchema(fields)); 


22.2.2 “” 写 数据 


和 读数 据 类 似 ， 写 数据 时 ， 需 要 指定 数据 库 名 和 要 写 入 的 表 的 表 
和 名。 如 来 要 写 入 的 表 是 分 区 表 而 只 想 写 入 其 中 一 个 分 区 时 ， 那 么 还 要 
指定 要 写 入 的 这 个 分 区 的 分 区 名 : 


A 
* Initializes a new OutputJobInfo instance for writing data from a table. 
* @param databaseName the db name 
* @param tableName the table name 
* @param partitionValues The partition values to publish to, can be null or empty 


public static OutputJobInfo create(String databaseName, 
String tableName, 
Map<String, String> partitionValues) { 


databaseName 表 示 表 所 在 的 指定 的 Hive 数 据 库 (或 模式 ) 的 名 称 。 
如 果 这 个 值 为 null 的 话 ， 那 么 束 会 使 用 默认 的 default 数 据 库 。 而 
tableName 表 示 的 是 要 写 入 的 目标 表 名 。 表 名 必须 是 非 null 的 ， 而 且 应 
该 是 Hive 中 实际 存在 的 一 个 表 。partitionValues 表 示 用 户 期 望 创建 的 分 
区 名 称 。 如 果 需 要 写 入 到 特定 的 某 个 分 区 的 话 ， 那 么 这 个 map 必 须 明确 
地 指定 这 个 分 区 。 例 如 ， 如 有 果 这 个 表 具 有 二 级 分 区 的 话 ， 那 么 在 map 中 
必须 要 指定 这 两 级 分 区 字段 。 对 于 非 分 区 表 ， 这 个 字段 可 以 省 略为 


null 。 当 以 这 种 方式 显 式 指定 分 区 后 ， 那 么 分 区 字段 就 没 必要 保存 在 数 
据 文件 中 了 。 如 果 数 据 文件 中 包含 了 分 区 字段 的 内 容 ， 那 么 HCatalog 在 
将 数据 写 入 到 Hive 前 会 将 这 些 字段 过 滤 丢 弃 挤 ， 因 为 在 Hive 中 是 不 会 
在 数据 中 保存 分 区 字段 内 容 的 。 


同时 间 多 个 分 区 写 入 数据 是 允许 的 ， 这 也 就 是 所 请 的 动态 分 区 ， 
因为 记录 是 在 执行 时 动态 划分 到 不 同 分 区 的 。 如 来 要 使 用 动态 分 区 ， 
那么 分 区 字段 的 值 必须 存在 于 数据 中 。 例 如 ， 如 果 某 张 表 是 按照 字 
段 “datestamp” 进 行 划分 的 ， 那 么 这 个 字段 必须 存在 于 reducer 站 的 数据 
收集 釉 中 。 这 是 因为 HCatalog 将 读 取 分 区 字段 来 确定 将 数据 写 和 人 到 哪个 
。 在 写 数据 的 过 程 中 ， 之 前 的 分 区 字段 中 那些 列 的 值 将 会 被 丢 


一 旦 创建 好 一 个 OutputJobInfo 对 象 ， 然 后 区 可 以 通过 静态 方法 
setOutput 将 其 传递 给 HCatOutputFormat: 


OutputJobInfo outputInfo = OutputJobInfo,.create(dbName, outputTableName, nul]l)); 
HCatOutputFormat.setOutput(job, outputInfo); 


当 HCatOutputFormat 写 数据 时 ， 输 出 的 键 的 数据 类 型 并 不 重要 ， 而 
值 的 类 型 必须 是 HCatRecord。 可 以 在 reducer 阶 段 写 数据 ， 或 者 对 于 只 
有 map 过 程 的 任务 来 说 在 map 阶 段 写 数据 。 


将 上 面 的 内 容 放 到 同一 个 例子 中 。 下 面 的 代码 将 会 从 表 名 为 
rawevents 的 表 中 读 取 时 间 惟 为 20120531 的 分 区 ， 然 后 对 每 个 用 户 计算 
对 应 的 事件 个 数 ， 并 将 结果 最 终 写 入 到 表 cntd 中 


public class MRExample extends Configured implements Tool { 


public static class Map extends 
Mapper<writableComparable, HCatRecord, Text, Longwritable> { 


protected void map(WritableComparable key, 
HCatRecord value, 
Mapper<writableComparable, HCatRecord, 
Text, Longwritable>.Context context) 
throws IOException, InterruptedException f{ 
// Get our schema from the Job object. 
HCatSchema Schema = HCatBaseInputFormat.getOutputSchema(context); 
// Read the user field 
String user = value.get("user", schema); 
context.write(new Text(user), new Longwritable(1)); 


public static class Reduce extends Reducer<Text, Longwritable, 
WritableComparable, HCatRecord> { 


protected void reduce(Text key, Iterable<Longwritable> values, 
Reducer<Text, Longwritable, 
WritableComparable, HCatRecord>.Context context) 
throws IOException ,InterruptedException { 


List<HCatFieldSchema> columns = new ArrayList<HCatFieldschema>(2); 
columns.add(new HCatFieldSschema("user", HCatFieldschema.Type.STRING, "")); 
columns.add(new HCatFieldSschema("cnt", HCatFieldSschema.Type.BIGINT, "")); 
HCatSchema Schema = new HCatSchema(columns); 


long sum = 0; 
Iterator<Intwritable> iter = values.iterator(); 
while (iter.hasNext()) sum += iter.next().getLong(); 
HCatRecord output = new DefaultHCatRecord(2); 
record.set("user", schema, key.toSstring()); 
record.setLong("cnt", schema, sum); 
context.write(null, record); 
} 
} 


public int run(String[] args) throws Exception { 
Job job = new Job(conf, "Example"); 
// Read the "rawevents" table, partition "20120531", in the default 
// database 
HCatInputFormat.setIinput(job, InputJobInfo.create(null, "rawevents", 
"datestamp='20120531'")); 
job.setIinputFormatClass(HCatInputFormat.class); 
job.setJarByClass(MRExample.class); 
job.setMapperClass(Map.class); 
job.setReducerClass(Reduce.class); 
job.setMapOutputkKeyClass(Text.class); 
job.setMapOutputValueClass(Longwritable.c]lass); 
job.setOoutputkeyClass(WritableComparable.class); 
job.setoOutputValueClass(DefaultHCatRecord.c]lass); 
// Write into "cntd" table, partition "20120531", in the default database 
HCatOutputFormat.setOutput(job 
OutputJobInfo.create(null, "cntd", "ds=20120531")); 
job.setOutputFormatClass(HCatOutputFormat.c]lass); 
return (job.waitForCcompletion(true) ? 0 : 1); 


} 


public static void main(String[] args) throws Exception { 
int exitCode = ToolRunner.run(new MRExample(), args); 
System.exit(exitCode); 


} 


22.3 ”命令 行 


因为 HCatalog 使 用 的 是 Hive 的 元 数据 存储 ， 所 以 Hive 用 户 是 不 需 
使 用 其 他 额外 的 工具 来 访问 元 数据 的 。 对 于 Hive 用 户 ， 像 以 前 一 样 使 


用 Hive 命 令 行 工具 就 可 以 了 。 不 过 ， 对 于 那些 不 是 Hive 用 户 的 HCatalog 
用 户 来 说 ， 提 供 了 一 个 被 称 为 hcat 的 命令 行 工具 。 这 个 工具 和 Hive 的 命 
令 行 工 具有 些 类 似 。 两 者 最 大 的 不 同 是 其 只 接受 不 会 产生 MapReduce 任 

(job) 的 命令 。 这 意味 着 其 可 以 支持 大 部 分 的 DDL (数据 定义 语 
言 ， 用 于 定义 数据 的 操作 ， 如 创建 表 这 样 的 操作 ) 语句 : 


iy 


$ /usr/bin/hcat -e "create table rawevents (user string, url string);" 


命令 行 支持 表 22-1 中 所 示 的 这 些 操作 。 


表 22-1 hcat 命 令 行 选项 


通过 命令 行 执行 DDL 语 句 hcat ~e “show tables;” 
行 包含 有 DDL 语 句 的 脚本 文件 hcat -f setup.sql 


hcat ~g mygroup ... 


闹 属 性 的 形式 传递 给 HCatalog hcat -D log.level=INFO 


示 用 法 帮助 信息 hcat -h 或 者 hcat 


( 译 者 注 :， 原 书 中 这 个 表 描 述 有 误 ， 本 表 是 修正 后 的 内 容 。) 
HCatalog 命 令 行 不 文 持 如 下 这 些 SQL 控 作 : 


。 SELECT 

。 CREATE TABLE AS SELECT 
。 INSERT 

。 LOAD 


ALIER INDEX REBUILD 
ALIER TABLE CONCATENATE 
ALTER TABLE ARCHIVE 
ANALYZE TABLE 

EXPORT TABLE 

IMPORT TABLE 


22.4 ”安全 模型 


HCatalog 并 没有 使 用 Hive 的 授权 模型 。 不 过 ，HCatalog 的 用 户 认 证 
功能 和 Hive 是 完全 相同 的 。Hive 试 图 实现 传统 的 数据 库 授权 模型 。 不 
过 ， 这 在 Hadoop 生 态 系 统 中 有 一 些 限制 。 


因为 是 可 以 直接 访问 文件 系统 来 获取 的 层 数 据 的 ， 所 以 Hive 的 权 
限 控 制 是 有 限 的 。 通 过 将 Hive 所 对 应 的 所 有 文件 和 文件 夹 的 权限 设置 
为 执行 Hive 任 务 的 用 户 所 有 这 样 的 方式 可 以 解决 这 个 问题 。 通 过 这 种 
方式 可 以 防止 其 他 用 户 读 取 或 者 写 入 数据 ， 除 了 通过 Hive 进 行 操 作 。 
不 过 ， 这 样 有 一 个 缺点 ， 就 是 Hive 中 所 有 的 UDF 都 需要 以 超级 用 户 来 
执行 ， 因 为 在 Hive 进 程 中 会 执行 这 些 UDF。 因 此 ， 它 们 都 需要 数据 仓 
库 中 对 所 有 文件 的 读 和 写 权 限 。 


避免 这 个 问题 的 唯一 方式 简单 地 说 就 是 要 声明 UDF 为 特权 操作 ， 
而 且 只 允许 有 访问 权限 的 那些 人 创建 UDF， 尽 管 目 前 尚 无 机 制 强制 这 
么 做 。 在 Hive 中 这 可 能 是 可 以 接受 的 ， 但 是 在 Pig 和 MapReduce 这 些 用 
户 产 生 代 码 非常 多 的 应 用 中 显然 束 很 难 接受 了 。 


为 了 解决 这 个 问题 ，HCatalog 使 用 和 存储 层 相 同 的 权限 进行 权限 近 
制 。 对 于 存储 在 HDFS 中 的 数据 ， 这 意味 着 HCatalog 将 使 用 包含 有 数据 
的 文件 来 和 文件 的 属性 中 的 用 户 权限 来 判断 是 否 有 权限 进行 访问 。 如 
宋 有 权限 ， 那 么 其 将 被 赋予 相同 的 元 数据 访问 权限 。 例 如 ， 如 琳 某 个 
0 目 邓 的 写 权 限 的 话 ， 那 么 其 也 束 具 有 的 这 个 
] 写 权限 。 


这 样 做 的 优点 是 这 确实 是 安全 的 ， 很 难 通过 修改 抽象 层 来 推翻 系 
统 权 限 控制 。 缺 点 是 ，HDFS 所 文 持 的 安全 模型 要 比 传统 数据 库 弱 得 
多 。 特 别 是 ， 如 子 段 级 别 的 字段 功能 通过 这 种 模式 是 无 法 提供 的 。 同 


时 ， 用 户 只 能 通过 将 其 加 入 到 文件 系统 中 文件 对 应 的 组 中 的 方式 来 获 
取 访 问 表 的 权限 。 


22.5 ”架构 


正如 前 面 所 解释 的 ，HCatalog 对 于 Pig 和 MapReduce 使 用 它们 的 标 
; 准 输入 和 输出 机 制 。HCatLoader 和 HCatStorer 是 相当 简单 的 ， 因 为 它们 
使 用 的 分 别 就 是 HCatInputFormat 和 HCatOutputFormat。 这 2 个 
MapReduce 类 很 大 一 部 分 工作 丈 是 将 MapReduce 和 Hive 元 数据 存储 结合 


图 22-1 展示 的 是 HCatalog 的 架构 图 。 


HCatLoader | HCatLoader | 
HCatinputFormat | HCatinputFormat Notification 


Hive 元 数据 操作 接口 


Hive 
元 数据 存储 
Thrit 服 务 


图 22-1 HCatalog 架 构图 


HCatInputFormat 通 过 和 Hive 的 元 数据 存储 进行 通信 来 获取 要 读 取 
的 表 和 分 区 的 信息 。 这 包括 获取 表 的 模式 ， 也 包括 获取 每 个 分 区 的 模 
式 。 对 于 每 个 分 区 ， 还 要 确定 对 应 的 用 于 读 取 该 分 区 数据 的 实际 的 
InputFormat 和 SerDe。 这 些 会 被 收集 在 一 起 ， 然 后 和 所 有 的 分 区 的 数据 
划分 一 起 ， 返 回 一 个 mputSplits 对 象 列 表 。 


同样 地 ， 对 于 每 个 底层 的 inputFormat 都 会 有 对 应 的 RecordReader 用 
于 对 划分 进行 解码 。 然 后 HCatRecordReader 会 通过 和 分 区 对 应 的 SerDe 
将 来 目 底 层 的 RecordReader 的 值 转化 成 KHCatRecord。 这 个 过 程 中 包含 有 
为 每 个 分 区 补充 对 应 缺少 的 列 。 也 就 是 说 ， 当 表 模 式 中 包含 有 分 区 模 
式 中 不 存在 的 字段 时 ， 那 么 就 会 同 HCatRecord 中 增加 缺少 的 列 且 值 为 
nul。 同 时 ， 如 果 用 户 明 确 指 定 需要 其 中 部 分 字段 的 话 ， 那 么 这 时 就 会 
去 除 掉 不 需要 的 字段 。 


HCatOutputFormat 也 会 和 Hive 元 数据 存储 进行 通信 ， 以 确认 写 入 的 
文件 格式 和 模式 。 尽 管 HCatalog 当 前 只 文 持 表 指 定 的 存储 格式 ， 不 过 无 
需 为 每 个 分 区 都 打开 不 同 的 OutputFormat。 底 层 的 OutputFormat 已 经 通 
过 HCatOutputFormat 进 行 封 狼 了 。 对 于 每 个 分 区 都 会 创建 一 个 封装 了 底 
层 RecordWriter 的 RecordWriter， 尽 管 它们 都 使 用 相同 的 SerDe 来 写 这 些 
新 记录 。 当 所 有 的 分 区 都 写 完 后 ，HCatalog 会 使 用 一 个 
OutputCommitter 来 将 元 数据 信息 写 入 到 元 数据 存储 中 。 


第 23 章 ”案例 研究 


全 球 有 很 多 公司 和 组 织 使 用 Hive。 本 章 提 供 的 案例 将 详细 介绍 有 
趣 的 和 独特 的 使 用 场景 和 我 们 面临 过 的 问题 ， 以 及 如 何 使 用 Hive 这 个 
独特 的 PB 级 别 数 据 数据 仓库 来 解决 这 些 问 题 。 


23.1 m6d.com(Media6Degrees) 
23.1.1 M 6D 的 数据 科学 ， 使 用 Hive 和 R 


Ori Stitelman 


在 本 案例 研究 中 ， 我 们 考察 了 m6d 的 数据 科学 团队 使 用 Hive 对 综合 
的 海量 数据 提取 信息 的 众多 方法 中 的 一 种 。m6d 是 一 家 面 癌 展示 广告 的 
公司 。 我 们 所 扮演 的 角色 就 是 通过 创建 定制 的 机 器 学 习 算 法 来 为 广告 
宣传 活动 寻找 最 好 的 新 前 景 。 这 些 算 法 是 用 于 一 个 交付 引擎 之 上 的 ， 
其 被 绑 定 到 无 数 个 实时 竞价 交易 ， 从 而 提供 基于 用 户 客 户 端 行为 的 和 
按照 网 络 地 理 位 置 提供 广告 条 展示 的 方式 。m5d 广 告 展示 引擎 每 天 都 涉 
及 到 数 十 亿 的 竞价 次 数 和 进行 数 千 万 次 的 广告 展示 。 目 然 ， 这 样 的 一 
个 系统 会 产生 大 量 的 数据 。 由 本 公司 的 广告 展示 交付 系统 产生 的 大 部 
分 的 记录 是 存储 在 m6d 公 司 的 Hadoop 集 群 中 的 ， 也 因此 ，Hive 是 我 们 
的 科学 家 对 这 些 日 志 进 行 数据 分 析 的 主要 工具 。 


Hive 为 我 们 的 科学 家 团队 提供 了 提取 和 处 理 大 量 数据 的 一 种 方 
式 。 事 实 上 ， 其 允许 我 们 分 析 在 使 用 Hive 之 前 无 法 进行 有 效 分 析 的 海 
量 数据 ， 并 对 其 进行 样本 抽取 和 数据 聚合 。 尽 管事 实 上 Hive 人 允许 我 们 
以 比 之 前 快 很 多 倍 的 速度 来 访问 海量 数据 ， 但 其 并 不 能 改变 这 样 一 个 
事实 ， 那 融 是 ， 以 前 我 们 所 熟悉 的 数据 科学 家 并 不 能 以 所 产生 的 所 有 
数据 作为 样本 数据 进行 样本 分 机 ， 也 吏 是 对 全 局 数据 进行 分 析 而 不 是 
抽样 分 析 。 忌 之 ，Hive 为 我 们 提供 了 一 个 提取 海量 数据 的 很 好 的 工 
具 。 不 过 ， 数 据 科 学 家 在 数据 科学 领域 使 用 的 方法 工具 箱 、 或 在 统计 
学 习 领 域 所 使 用 的 方法 如 采 不 经 过 实质 性 的 改变 的 话 ， 则 是 无 法 轻易 
适用 于 海量 数据 集 分 析 的 。 


目前 已 经 有 了 或 者 正在 开发 各 种 各 样 的 软件 包 ， 来 对 海量 数据 集 
进行 启发 式 的 和 非 启 发 式 的 知识 学 习 。 这 些 软件 中 有 一 些 是 独立 的 软 
件 实现 ， 例 如 Vowpal Wabbit 和 BBR， 而 其 他 一 些 是 基于 像 
HadoopMahout 这 样 的 大 型 基础 架构 或 其 他 众多 的 针对 R 的 “海量 数据 ”处 
理 包 进行 实现 的 。 这 些 算法 一 部 分 是 利用 并 行 编程 方 法 实现 的 ， 而 其 
他 则 是 依赖 于 不 同 的 方法 来 实现 可 伸缩 性 的 。 


我 们 团队 的 几 个 数据 科学 家 对 于 统计 学 习 使 用 的 主要 工具 是 R。 有 R 
提供 了 众多 的 包 来 文 持 众 多 的 统计 算法 。 更 重要 的 是 ， 我 们 对 于 R 具 有 
很 多 的 经 验 ， 我 们 知道 其 是 如 何 执 行 的 ， 并 了 人 解 它 们 的 特性 ， 而 且 非 
常熟 悉 其 技术 文档 。 不 过 ，R 的 一 个 主要 缺点 是 ， 默 认 情 况 下 其 需要 将 
所 有 的 数据 集 载 入 到 内 存 中 。 这 是 一 个 主要 的 限制 。 还 有 就 是， 一 旦 R 
中 的 数据 比 可 以 载 入 内 存 的 数据 要 大 时 ， 系 统 束 会 出 现 内 存 交 换 ， 导 
致 系统 抖动 并 显著 降低 处 理 速 度 [。 


我 们 并 不 倡导 不 使 用 可 以 使 用 的 新 工具 。 很 明显 ， 利 用 好 这 些 可 
伸缩 技术 是 非常 重要 的 ， 但 是 我 们 只 能 有 那么 多 的 时 间 对 新 技术 进行 
调查 和 测试 。 所 以 现在 我 们 只 剩 下 一 个 选择 ， 要 么 对 数据 进行 采样 来 
适应 我 们 更 熟悉 的 工具 ， 要 么 使 用 可 以 用 于 海量 数据 分 析 的 新 工具 。 
如 采 我 们 决定 使 用 新 工具 的 话 ， 那 么 我 们 整 可 以 分 析 更 多 的 数据 ， 因 
此 也 束 可 以 降低 我 们 的 估算 误 凌 。 这 是 非 第 有 吸引 力 的 。 对 于 那些 要 
求 结果 精确 的 情况 来 说 这 种 方式 是 非常 吸引 人 的 。 不 过 ， 学 习 使 用 新 
工具 需要 时 间 成 本 ， 也 因 和 需要 时 间 学 习 新 工具 而 不 能 够 去 解决 其 他 对 
公司 有 价值 的 问题 。 


一 种 奉 代 方式 殉 是 我 们 可 以 对 数据 进行 同 下 抽样 ， 以 便 可 以 使 用 
我 们 手头 上 的 旧 工 具 进 行 分 析 。 不 过 这 样 我 们 需要 处 理 一 定 的 精度 损 
失 ， 会 增加 我 们 的 估算 误差 。 不 过 ， 这 样 我 们 融 能 以 我 们 熟悉 的 工具 
来 进行 数据 处 理 了 。 因 此 也 融 能 保持 使 用 我 们 当前 的 工具 箱 ， 不 过 会 
丢失 一 些 精 准 度 。 然 而 ， 并 非 只 有 这 两 种 可 行 的 方法 。 在 本 案例 研究 
中 ， 我 们 推荐 一 种 既 能 够 保持 现 有 工具 箱 的 功能 ， 同 时 又 能 在 使 用 更 
大 的 样本 数据 集 或 整个 数据 集 时 保证 计算 精度 或 减 小 误差 的 方式 。 


图 23-1 展 示 了 为 某 个 广告 排名 设计 的 算法 得 出 的 值 的 分 布 情况 。 更 
高 的 分 数 表 示 具 有 更 高 概率 的 转换 。 本 图 清楚 地 表明 ， 较 高 分 数 的 转 
化 率 要 比较 低 分 数 段 的 转化 率 低 。 也 殊 是 ， 分 数 在 1 以 上 的 比分 数 在 0.5 
和 1 之 间 的 转化 率 要 低 。 考 虑 到 某 些 活动 只 有 目标 比例 非常 小 的 用 户 
群 ， 因 此 具有 最 好 前 景 的 是 最 顶端 的 得 分 着 。 


医 汶 春 


分 数 


图 23-1 转换 率 和 得 分 的 概率 


图 23-1 中 这 条 表示 分 数 和 转换 率 之 间 关 系 的 曲线 是 使 用 统计 编程 包 

R 中 的 广义 相 加 模型 (GAM) 久生 成 的 。 这 里 就 不 对 GAM 进 行 详细 的 

介绍 了 人。 这 个 案例 研究 的 目的 可 以 认为 是 一 个 黑 盒 ， 其 可 以 预测 出 每 

个 分 数 的 转换 率 。 浏览 器 则 可 以 根据 预测 的 转换 率 重 新 进行 排名 ， 这 
样 ， 预 测 的 转换 率 就 变 成 了 新 的 分 数 。 


可 以 通过 下 面 的 方式 来 产生 新 的 排名 。 首 先 ， 需 要 为 每 个 浏览 器 
提取 分 数 ， 然 后 在 设 定 的 一 段 时 间 内 跟踪 它们 ， 例 如 5 天 ， 并 记录 下 它 
们 所 需 的 动作 ， 然 后 进行 转换 。 假 设 Hive 中 有 张 名 为 scoretable 的 表 ， 
其 具有 表 23-1 所 示 的 信息 ， 并 按照 date 和 offer 进 行 分 区 。 


表 23-1 样 例 表 scoretable 中 的 字段 信息 


串口 全 的 的 全 

| 初始 算法 产生 的 分 数 ， 这 个 分 数 没有 合理 排序 

overt | “| 转换 的 变量 是 一 个 二 进 制 变 量 ， 其 值 为 1， 如 果 独立 浏览 在 随后 5 
内 执行 了 指定 的 动作 ， 反 之 如 果 没 有 执行 ， 则 其 值 为 0 


ee | 浏览 被 赋予 特定 分 数 的 日 期 
em 


下 面 这 个 查询 语句 可 以 用 于 从 表 scoretable 中 抽取 一 组 数据 ， 用 于 
在 R 中 生成 GAM 曲 线 ， 来 预测 前 面 所 述 表 中 不 同 级 别 分 数 的 预测 转换 


SELECT score,convert 
FROM scoretable 
WHERE date >= (...) AND date <= (…) 


然后 通过 如 下 代码 将 这 些 数 据 加 载 到 R 中 ， 再 使 用 前 面 所 提 的 表 的 
数据 生成 预测 转换 率 曲线 ; 


library(mgcv) 


g1l=gam(convert~s(score),family=binomial,data=[data frame name]) 


这 种 方式 存在 一 个 问题 ， 那 吏 是 只 能 使 用 有 限 几 天 的 数据 来 进行 
分 析 ° 因为 一 旦 使 用 的 数据 集 太 大 ， 甚 至 只 要 取 稍 微 大 于 3 天 的 数据 束 

导致 R 无 法 稳定 工作 。 此 外 ， 如 采 要 处 理 3 天 的 数据 量 ， 每 次 执行 都 
需要 104 分 钟 的 时 间 进 行 初始 化 。 因 此 ， 对 于 一 个 的 计 分 算法 ，3 天 的 数 
据 对 于 大 约 300 个 竞价 分 析 来 说 大 约 需要 消耗 50 个 小 时 。 


使 用 一 个 稍微 不 同 的 方式 ， 通过 简单 地 从 Hive 中 提取 数据 ， 并 利 
用 mgcv 中 提供 的 gam 函 数 的 允许 频率 权重 的 功能 ， 同 样 的 分 析 可 以 使 


用 更 多 的 数据 ， 获 取 更 多 的 信息 ， 而 执行 速度 可 以 更 快 。 通 过 在 Hive 
中 获取 分 数 的 最 近 近 似 值 ， 并 为 每 个 最 近 近 似 值 估算 一 个 频率 权重 ， 

通过 GROUP BY 语句 进行 转换 组 合 。 这 征 处 理 大 数据 集 的 通用 方式 ， 

而 且 这 里 面 并 不 会 因为 四 舍 五 入 近似 关系 导致 结果 信息 的 不 准确 ， 因 
为 没有 理由 认为 ， 个 体 分 数 间 相 差 0.001 会 有 任何 的 不 同 。 如 下 这 个 查 
询 语 句 将 产生 这 样 一 个 数据 集 : 


SELECT round(score,2) as score,convert,count(1) AS freq 
FROM scoretable 
WHERE date >= [start.date] and date <= [end.date] and offer = [chosen.offer] 


GROUP BY round(score,2),convert,; 


这 种 方式 产生 的 结 采 数据 集 比 之 前 那 种 没有 使 用 频率 权重 的 方式 
产生 的 数据 集 要 小 得 多 。 事 实 上 ， 每 个 提供 的 初始 数据 集 都 侣 有 数 百 
万 条 记 有 好， 而 这 个 新 数据 集 相对 每 个 提供 的 数据 集 缩小 到 了 6 500 条 。 
人 


library(mgcv) 


g2=gam(convert~s(score), family=binomial,weights=freq, 
data=[frequency weight data frame name]) 


前 面 对 于 仅仅 3 天 的 数据 每 份 提供 的 数据 集 创 建 GAM 就 需要 10 分 钟 
的 时 间 ， 而 后 者 使 用 频率 权重 的 方式 可 以 在 10 秒 钟 左右 处 理 基于 7 天 的 
数据 的 GAM 计 算 。 因 此 ， 通 过 使 用 频率 权重 ， 对 于 300 个 估价 ， 使 用 之 
前 的 方式 需要 50 小 时 ， 而 使 用 新 的 方法 后 只 需要 50 秒 。 同 时 增加 的 速 
度 也 允许 使 用 超过 两 倍 的 数据 获得 更 加 精确 的 预测 转换 概率 。 总 之 ， 
频率 权重 方式 可 以 在 很 少 的 时 间 内 获得 更 精确 的 GAM 预 测 估算 值 。 


在 当前 的 案例 研究 中 ， 我 们 展示 了 如 何 通过 对 连续 变量 取 近 似 值 
和 使 用 频率 权重 进行 分 组 ， 我 们 既 可 以 通过 使 用 更 多 的 数据 获得 更 精 
确 的 估 值 ， 又 能 消耗 更 少 的 计算 资源 ， 最 终 可 以 最 快 地 进行 估算 。 这 
个 例子 只 展示 了 只 有 单一 功能 ， 按 照 分 数 计算 的 模型 。 一 般 来 说 ， 这 
种 方式 适用 于 低 数据 符 性 或 者 较 大 数据 量 的 稀 琉 特性 。 上 述 的 方法 可 
以 扩展 到 到 高 维 问 题 ， 但 需要 使 用 其 他 一 些小 技巧 。 处 理 高 维 问 题 的 
一 个 方法 就 是 对 变量 或 者 特性 进行 分 桶 ， 转 换 成 二 进 制 变量 后 ， 再 使 
用 GROUP BY 进行 查询 ， 并 对 这 些 特性 计算 频率 权重 。 然 而 ， 随 着 功 


能 数量 的 增长 ， 这 些 功 能 特性 并 不 黎 芍 ， 再 使 用 这 种 方式 几乎 孢 没有 
什么 价值 了 ， 这 时 就 需要 寻找 其 他 的 解决 办 法 ， 或 者 是 可 以 处 理 这 种 
大 数据 集 的 工具 。 


23.1.2 M6D UDE 伪 随机 
David Ha 和 Rumit Patel 


对 数据 进行 排序 然后 获取 最 大 的 N 个 值 ， 这 种 需求 很 直截了当 。 用 
户 对 整个 数据 集 基 于 某 些 标准 进行 排序 ， 然 后 限制 结果 集 为 N 条 。 但 有 
些 时 候 需 要 对 元 素 进行 分 组 ， 然 后 保留 每 个 分 组 中 的 排序 后 的 前 N 条 记 
孙 。 人 例如， 计算 每 名 歌词 和 艺术 家 的 排名 前 10 的 歌曲 ， 或 者 按照 商品 类 
别 和 国家 得 到 最 畅销 的 前 100 种 商品 。 很 多 的 数据 库 平 台 都 提供 了 一 个 
名 为 rank () 的 函数 ， 其 适用 于 这 些 使 用 场景 。 在 Hive 中 我 们 可 以 通过 
实现 用 户 目 定义 函数 来 达到 同样 的 目的 。 我 们 将 这 个 函数 命名 为 
p_rank()， 这 样 可 以 和 Hive 中 使 用 的 rank() 有 所 区 别 。 


假设 我 们 有 如 表 23-2 所 示 的 商品 销售 数据 ， 我 们 布 望 查看 按照 类 别 
和 国家 的 前 3 名 畅销 的 商品 : 


表 23-2 ” 样 例 表 p_rank_demo 中 的 数据 内 容 


商品 名 称 


war stars iii 
star wreck 
titanus 


ce 
me 
me 


CS 
on 


CS 
on 


Ee 
Cn 


a 


= 
ce 
ee 
cm 


在 大 多 数 系 统 中 ， 如 下 SQL 都 是 可 以 执行 的 : 


SELECT 
category,country, product, sales, rank 
FROM ( 
SELECT 


category,country,product, sales, 
rank() over (PARTITION BY category, country ORDER BY sales DESC) rank 
FROM p_rank_demo) 七 
WHERE rank <= 3 


如 果 想 通过 HiveQL 获 得 相同 的 结果 ， 那 么 第 一 步 就 需要 将 数据 分 
成 组 。 我 们 可 以 使 用 DISTRIBUTE BY 语句 进行 分 组 。 我 们 需要 保证 具 
有 相同 类 别 和 国家 的 记录 都 发 送 到 同一 个 reducer 上 : 


DISTRIBUTE BY 
category, 
country 


下 一 步 就 是 使 用 SORT BY 语句 对 每 组 数据 按照 销量 降序 排列 。 因 
为 ORDER BY 会 会 触发 全 局 数据 排 友 ， 所 以 SORT BY 所 涉及 的 数据 会 在 
同一 个 特定 的 reducer 中 进行 排序 。 这 里 需要 重新 写 上 DISTRIBUTE BY 
语句 中 的 划分 列 名 : 


SORT BY 
category, 
country, 
sales DESC 


将 所 有 内 容 都 放 在 一 起 ， 束 是 如 下 这 个 样子 : 


ADD JAR p-rank-demo,.jar， 
CREATE TEMPORARY FUNCTION p_rank AS 'demo.PsuedoRank'; 


SELECT 
category,country, product, sales, rank 
FROM ( 

SELECT 
category,country, product, sales, 
p_rank(category, country) rank 

FROM ( 

SELECT 


category,country, product, 
sales 
FROM p_rank_demo 
DISTRIBUTE BY 


category,country 
SORT BY 
category,country, sales desc) t1) t2 
WHERE rank <= 3 


子 但 询 t1 重 新 组 织 数据 ， 以 保证 相同 的 商品 类别 和 国家 下 的 数据 按 
照 销 售 数 量 降序 排列 。 第 2 个 查询 t2 会 使 用 到 p_rank0 函 数 ， 并 将 其 命名 
为 rank， 其 对 于 每 组 中 的 行 都 会 增加 一 个 排名 。 最 外 层 的 查询 会 限制 只 
保留 排名 前 三 的 值 。 经 排序 后 的 结果 如 表 23-3 所 示 。 


表 23-3 ”对 样 例 表 p_rank_demo 进 行 RANK 排 序 后 的 数据 内 容 


ECEIECIEEZI 
= 
= 
= 
= 


| 
| 
= 
le 
= 


里 是 以 原生 UDF 的 方式 实现 p_rank() 芳 数 的 ， 其 参数 都 是 确定 的 
组 属 性 在 本 例 中 ， 残 是 类 别 和 国家 。 这 个 函数 可 以 记 住 上 一 次 的 参 
数值 ， 因 此 只 要 成 功 和 参数 匹配 ， 束 会 一 直 增 加 数值 并 返回 排列 值 。 


人 这 个 函数 整 会 重 转 排列 值 为 1， 然 后 重新 开始 计 


这 仅 是 个 说 明 如 何 使 用 p_rankO 画 数 的 简单 的 例子 。 用 户 当 然 也 可 
以 按照 类 别 和 国家 获取 最 畅销 的 第 10 位 到 第 15 位 的 商品 。 或 者 ， 用 户 
已 经 计算 好 了 每 个 商品 类 别 和 国家 下 的 商品 的 个 数 ， 那 么 用 户 也 可 以 
结合 JOIN 使 用 p_rank0 计 算 百 分 比 。 人 例如， 假设 在 “movies ( 电 
影 ) ”和 “us (美国 ) ”组 下 面 有 1000 种 产品 ， 那 么 第 50 名 、 第 70 名 和 第 
95 名 的 RANK 值 就 分 别 对 应 于 500、700 和 950。 这 里 需要 明确 的 是 ， 
p_rankO 并 非 是 rankO 函 数 的 替代 函数 ， 因 为 两 者 在 某 些 情形 下 是 有 差异 
的 。 例 如 ， 对 于 相同 的 值 ，rank0 函 数 返 回 的 值 是 相同 的 ， 但 是 p_rank() 
函数 仍然 会 进行 累加 计算 ， 因 此 具体 使 用 需要 按照 期 望 选择 并 在 数据 
上 进行 测试 。 


下 面 展示 的 十 具体 的 代码 实现 。 这 份 代码 十 属于 公共 领域 的 ， 所 
以 用 户 可 以 随意 使 用 、 改 进 和 修改 它 ， 以 满足 个 人 的 需求 : 


package demo; 


import org.apache.hadoop.hive.ql.exec.UDFArgumentException; 

import org.apache.hadoop.hive.ql.metadata.HiveException,; 

import org.apache.hadoop.hive.ql.udf.generic,.GenericUDF; 

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector; 

import org.apache.hadoop.hive.serde2.objectinspector.primitive. 
PrimitiveObjectIinspectorFactory; 


public class PsuedoRank extends GenericUDF { 

i 
* The rank within the group. Resets whenever the group changes. 
*/ 

private long rank; 


A 

* Key of the group that we are ranking. Use the string form 

* of the objects since deferred object and equals do not work 
* as expected even for equivalent values. 

*/ 

private String[] groupkey; 


Q@Override 
public ObjectInspector initialize(ObjectInspector[] oi) 
throws UDFArgumentException { 
return PrimitiveObjectInspectorFactory.javaLongObjectIinspector,; 


Q@Override 
public Object evaluate(Deferredobject[] currentkey) throws HiveException { 
if (!sameAsPreviousKey(currentkey)) { 
rank = 1; 


} 


return new Long(rank++) 


} 


A 
* Returns true if the current key and the previous keys are the same. 
* If the keys are not the same, then sets {@link #groupKey} to the 
* current key. 
*/ 
private boolean sameAsPreviousKey(Deferredobject[] currentkey) 
throws HiveException { 
If (null == currentkey && null == groupKey) { 
return true; 
} 
String[] previouskey = groupkey; 
copy(currentkey); 
If (null == groupKey && null != previouskKkey) { 
return false; 
} 
If (null != groupKey && null == previouskey) { 
return false; 
} 
If (groupKey.length != previousKey.length) { 
return false; 
} 
for (int index = 0; index < previouskey.length; index++) { 
if (!groupKey[index].equals(previouskey[index])) { 
return false; 
} 
} 
return true; 


} 


pls 
* Copies the given key to {@link #groupKey} for future 
* comparisons. 
WA 
private void copy(Deferredobject[] currentkey) 
throws HiveException { 
if (null == currentkey) { 
groupKey = null; 
} else { 
groupKey = new String[currentkey.length]; 
for (int index = 0; index < currentkey.length; index++) { 
groupKey[index] = String.valueof(currentKey[index] .get()); 


} 
} 


Q@Override 

public String getDisplayString(String[] children) { 
StringBuilder sb = new StringBuilder(); 
sb.append("PsuedoRank ("); 
for (int i = 0; i < children.length; i++) { 


if (i > 0) { 
sb.append(", "); 

} 

sb.append(children[i]); 


} 
sb.append(")"); 


return sb.tostring(); 
} 
} 


23.1.3 M6D 如 何 管理 多 MapReduce 集 群 间 的 Hive 数 据 访 问 


尽管 Hadoop 和 集群 规模 可 以 设计 成 10 到 10 000 个 节点 ， 但 是 有 时 特 
定 的 部 署 需求 会 涉及 要 在 不 止 一 个 文件 系统 或 者 JobTracker 上 运行 任 
务 。 在 M6D 中 ， 我 们 有 这 样 的 需求 ， 例 如 我 们 有 一 些 需 要 Hadoop 和 
Hive 在 每 小 时 或 每 天 都 可 以 按时 完成 的 关键 业务 报告 。 不 过 我 们 的 系 
统 也 支持 数据 科学 家 和 销售 工程 师 定 期 执行 的 一 些 特定 报告 。 尽 管 使 
用 公平 调度 器 和 能 力 调度 器 已 经 满足 了 我 们 的 大 部 分 需求 ， 我 们 仍 需 
要 更 高 的 调度 隔离 。 同 时 ， 因 为 HDFS 没 有 快照 或 者 增 量 备份 功能 特 
性 ， 我 们 因此 需要 一 个 对 应 的 解决 方案 来 防止 意外 的 数据 删除 或 者 意 
外 的 删除 表 操 作 近 而 避免 数据 丢失 。 


我 们 的 解决 方案 就 是 运行 2 个 独立 的 Hadoop 集 群 。 在 主 集群 上 ， 数 
据 可 以 被 设置 为 2 份 或 者 3 份 数 据 元 余 ， 而 且 同 时 会 被 复制 到 第 2 个 集群 
上 。 这 种 方式 可 以 保证 我 们 对 于 时 效 性 强 的 需求 还 可 以 有 足够 的 资源 
同时 提供 给 临时 用 户 进行 使 用 。 此 外 ， 我 们 可 以 防止 任何 意外 删除 表 
或 数据 的 情况 。 这 种 方式 确实 会 增加 部 署 和 管理 2 个 集群 的 开销 ， 而 这 
种 开销 在 我 们 的 使 用 场景 下 是 合理 的 。 

我 们 的 2 个 集群 分 别 被 称 为 生产 环境 和 人 研究 环境 。 其 都 具有 各 目的 
专 有 数据 节点 (DataNode) 和 任务 节点 (TaskTracker) 。 每 个 


NameNode 和 JobTracker 有 点 都 是 DRBD 和 Linux-HA 的 故障 恢复 方案 。 
这 2 个 集群 都 是 部 署 在 同一 个 交换 网 络 的 ( 见 表 23-4 和 表 23-5) 。 


表 23-4 ”生产 环境 配置 


JobTracker jt.hadoop.pvt:54311 
表 23-5 ”探索 环境 
JobTracker rjt.hadoop.pvt:34311 


1. 使 用 Hive 执 行 跨 集群 查询 


生产 集群 上 存在 一 张 名 为 zz_mid_set 的 表 ， 但 是 我 们 期 望 不 使 用 
distcp 命 令 束 可 以 在 研究 集群 上 查询 这 张 表 。 通 党 来 说 ， 我 们 会 尽量 避 
免 这 样 的 操作 ， 因 为 其 破坏 了 我 们 的 隔离 设计 ， 但 是 很 高 兴 地 是 ， 这 
样 的 操作 是 可 以 做 到 的 。 


通过 describe extended 命 令 除 了 可 以 查看 表 具 有 的 字段 信息 外 还 可 
以 查看 其 实际 存储 的 HDFS 路 径 : 


hive> set fs.default.name; 
fs.default.name=hdfs://hdfs.hadoop.pvt:54310 
hive> set mapred.job.tracker; 
mapred.job.tracker=jt.hadoop.pvt:54311 

hive> describe extended zz_ mid_ set,; 

OK 


adv_spend_id int 
transaction_id bigint 
time string 


client_id bigint 

visit_info string 

event_type tinyint 
level int 


location:hdfs://hdfs.hadoop.pvt:54310/user/hive/warehouse/zz_mid_ set 
Time taken: 0.063 seconds 

hive> select count(1) from zz_mid_ set; 

1795928 


在 第 2 个 集群 上 ， 使 用 CREATE TABLE 语 句 创建 相同 的 表 ， 表 的 类 
型 需要 是 外 部 表 (EXTERNAL) ， 这 样 即使 在 第 2 个 集群 上 执行 了 删 
除 表 操作 ， 也 不 会 真实 地 删除 第 1 个 表 中 的 数据 。 需 要 注意 的 是 ， 这 
里 我 们 需要 指定 完整 的 URL 路 径 。 事 实 上 ， 当 用 户 通过 相对 路 径 来 指 
定 表 存储 路 径 时 ，Hive 实 际会 在 元 数据 库 中 存储 完整 的 URL 路 径 : 


hive> set fs.default.name; 

fs.default.name=hdfs://rs01.hadoop.pvt:34310 

hive> set mapred.job.tracker; 

mapred.job.tracker=rjt.hadoop.pvt:34311 

hive> CREATE TABLE EXTERNAL table_in another_cluster 

( adv_spend_id int, transaction_id bigint, time string, client_id bigint, 


visit_info string, event_type tinyint, level int) 

LOCATION 'hdfs://hdfs.hadoop.pvt:54310/user/hive/warehouse/zz_mid_set'; 
hive> Select count(*) FROM table_in_another_cluster; 

1795928 


需要 注意 的 是 ， 之 所 以 这 样 的 跨 集群 操作 可 以 工作 ， 是 因为 两 个 
集群 的 网 络 是 相通 的 。 我 们 所 提交 的 任务 所 在 的 TaskTracker 节 点 需要 
能 够 访问 男 一 个 集群 的 NameNode 方 点 和 所 有 的 DataNode 节 点 。Hadoop 
的 设计 理念 中 有 一 项 束 是 转移 计算 而 不 转移 数据 ， 束 是 将 计算 尽量 地 


转移 到 数据 所 在 的 位 置 。 通 过 调度 将 计算 任务 转移 到 数据 所 在 的 节点 
上 上 。 在 这 种 情况 下 ，TaskTracker 会 连接 为 一 个 集群 的 DataNode。 这 整 
意味 着 会 造成 通用 性 能 下 降 和 网 络 占 用 增加 。 


2. 不 同 集群 间 的 Hive 数 据 元 余 


对 于 Hadoop 和 Hive 而 言 保 持 数 据 元 余 要 比 传统 关系 型 数据 库容 易 
得 多 。 和 传统 数据 库 在 执行 多 事务 时 会 频繁 改变 的 层 数 据 不 同 ， 
Hadoop 和 Hive 中 的 数据 通常 是 “一 次 写 入 的 "。 增加 新 分 区 不 会 影 啊 到 
i 


我 们 早期 所 使 用 的 备份 系统 是 一 个 独立 的 系统 ， 也 束 是 使 用 distcp 
命令 进行 操作 ， 然 后 按照 一 定 的 时 间 间 隔 使 用 生成 的 Hive 语 句 来 增加 
分 区 。 当 我 们 想 备 份 一 张 新 表 时 ， 我 们 就 会 先 找 贝 来 一 份 已 有 的 代 
码 ， 然 后 修改 下 这 个 脚本 的 配置 来 处 理 新 的 表 和 分 区 。 经 过 一 段 时 
间 ， 我 们 制定 了 一 个 可 以 更 加 目 动 化 对 表 和 分 区 进行 备份 的 系统 。 


这 个 处 理 过 程 在 创建 分 区 的 同时 会 创建 一 个 空 的 HDFS 文 件 ， 名 


/replication/default.fracture act/hit_date=20110304,mid=3000 


备份 进程 会 不 断 地 扫描 需要 备份 的 目录 结构 。 如 果 其 发 现 一 个 新 
的 文件 ， 那 么 融会 在 Hive 元 数据 库 中 得 找 其 对 应 的 表 和 分 区 ， 然 后 使 
用 查找 结果 来 备份 这 个 分 区 。 成 功 备份 后 这 个 文件 束 会 被 删除 授 。 


如 下 的 代码 片段 就 古 这 个 程序 的 主 循环 处 理 部 分 。 首 先 ， 我 们 会 
做 一 些 检查 来 确保 表 古 存在 于 目标 元 数据 存储 中 : 


public void run(){ 
while (goon){ 

Path base = new Path(pathToConsume); 

FileStatus [] children = SrcFs. ListStatus(base)， 

for (FileStatus child: children){ 

try { 
openHiveService( ); 
String db = child.getPpath().getName().split("\\.")[0]; 
String hiveTable = child.getPpath().getName().split("\\.")[1]; 
Table table = srcHive.client.get_ table(db, hiveTable); 
if (table == null){ 
throw new RuntimeException(db+" "+hiveTable+ 
" not found in source metastore"); 


Table tableR = destHive.client.get_ table(db,hiveTable); 
If (tableR == null){ 
throw new RuntimeException(db+" "+hiveTable+ 
" not found :in dest metastore"); 


通过 数据 库 名 和 表 名 我 们 就 可 以 在 元 数据 存储 中 找到 其 对 应 的 存 
,0 言 息 。 之 后 ， 我 们 会 做 一 个 检查 来 保证 这 个 信息 并 非 已 经 存 
四 


URI localTable = new URI(tableR.getSsd().getLocation()); 
Filestatus [] partitions = srcFs.listStatus(child.getPpath()); 
for (FileStatus partition : partitions){ 
try { 
String replaced = partition.getPpath().getName() 
, replace(", my) , replace(" 1 中 7 
Partition p = srcHive.client.get partition_by_name( 
db, hiveTable, replaced); 
URI partUri = new URI(p.getsd().getLocation()); 
String path = partUri,getPath()， 
DistCp distCp = new DistCp(destConf.conf),; 
String thdfile = "/tmp/replicator_distcp"; 
Path tmpPath = new Path(thdfile); 
destrFs.delete(tmpPath, true); 
If (destFs.exists( new Path(localTable.getSscheme()+ 
"://"+localTable.getHost()+":"+localTable.getPort()+ 
path) ) )t 
throw new RuntimeException("Target path already exists " 
+]localTable.getSscheme()+"://"+localTable.getHost()+ 
":"+localTable.getPort()+path ); 


Hadoop 的 DistCP 并 不 适合 通过 编程 的 方式 来 运行 。 不 过 ， 我 们 可 
以 传递 一 组 字符 串 数据 给 其 主 画 数 。 然 后 通过 其 返回 值 是 否 是 0 来 判断 
征 否 成 功 执行 : 


String [] dargs = new String [4]; 
dargs[0]="-1lo0g"; 
dargs[1]=localTable.getSscheme()+"://"+localTable.getHost()+":"+ 
localTable.getPort()+thdfile; 
dargs[2]=p.getSd().getLocation( ) ， 
dargs[3]=localTable.getScheme()+"://"+localTable.getHost()+":"+ 
localTable.getPort()+path,; 
int result =ToolRunner.run(distCp,dargs); 
If (result != 0){ 
throw new RuntimeException("DistCP failed "+ dargs[2] +" 


"+dargs[3]); 


最 后 ， 我 们 拼接 好 ALTER TABLE 语 句 来 增加 分 区 : 


String HQL = "ALTER TABLE "+hiveTab]e+ 
" ADD PARTITION ("+partition.getPath().getName() 
+") LOCATION '"+path+"'™",; 
destHive.client.execute("SET hive,Support,concurrency =false"); 
destHive.client.execute("USE "+db); 
destHive.client.execute(HQL); 
String [] results=destHive.client.fetchAll(); 
srcFs.delete(partition.getPpath(),true); 
} catch (Exception ex){ 
ex.printSstackTrace(); 


} // for each partition 
} catch (Exception ex) { 

//error(ex); 

ex,printStackTrace( ); 


| 
} // for each table 
closeHiveService(); 
Thread.sleep(60L*1000L); 
} // end run loop 
} // end run 


23.2 Outbrain 


David Funk 
Outbrain 是 领先 的 内 容 发 现 平台 。 
23.2.1 ”站 内 线 上 身份 识别 


有 了 时， 当 用 户 想 查看 网 站 的 流量 情况 时 ， 很 难 弄 清楚 这 些 流量 实 
际 来 源 于 哪里 ， 特 别 是 来 源 于 用 户 网 站 之 外 的 流量 情况 。 如 果 用 户 的 
网 站 具有 很 多 结构 不 同 的 URL 的 话 ， 那 么 就 无 法 简单 地 将 所 有 的 链接 
URL 和 用 户 登 录 页 面 进行 匹配 。 


1. 对 URL 进 行 清洗 


我 们 期 望 达 到 的 目的 整 是 可 以 将 链 入 的 链接 分 成 站 内 的 、 直 接 链 
入 的 或 其 他 3 个 分 组 。 如 果 所 属 组 类 型 是 其 他 的 话 ， 那 么 我 们 将 仅仅 
保存 原始 的 URL 链 授 。 这 样 ， 束 可 以 将 像 对 用 尸 站 点 进行 的 Google 搜 
索 这 样 的 链接 从 网 站 流量 中 区 分 出 来 ， 等 等 。 如 末 链 入 的 链接 是 空 的 
或 者 值 为 null， 那 么 我 们 将 其 标记 为 直接 链 入 的 那 组 。 


从 现在 开始 ， 我 们 将 假定 所 有 的 URL 网 址 都 已 经 解析 到 主机 名 或 
域名 了 ， 而 无 论 用 户 目 标 具 体 到 什么 级 别 的 粒度 。 就 我 个 人 而 言 ， 我 
喜欢 使 用 域 ， 因 为 它 更 简单 。 据 说 ，Hive 只 有 一 个 主机 名 函数 ， 但 不 


如 和 你 只 有 原始 URL， 则 有 几 个 选项 可 供 选 择 。 通 过 HOST 选项 ， 
正如 下 面 例子 所 展示 的 ， 可 以 是 个 给 出 的 链接 中 完整 的 主机 名 ， 如 
news.google.com 或 www.google.com， 而 其 中 的 域名 将 缩短 到 最 低 的 逻 
辑 层 次 ， 像 google.com 或 google.com.uk。 


Host = PARSE_URL(my_url, ‘HOST’’) 


也 许 用 户 正在 使 用 一 个 UDF 来 处 理 这 种 情况 。 不 管 怎样 ， 我 并 不 
在 乎 。 重 要 的 是 我 们 要 使 用 这 些 来 进行 匹配 ， 所 以 用 户 需要 根据 自己 
的 使 用 场景 来 做 出 最 合适 的 选择 。 


2. Determining referrer type 


因此 ， 回 到 这 个 例子 。 比 方 说 ， 我 们 有 3 个 网 站 : mysitel.com 、 
mysite2.com 和 mysite3.com。 现 在 ， 我 们 可 以 把 每 个 页 面 的 URL 转 换 成 
适当 的 类 别 。 我 们 假设 有 一 个 表 ， 表 名 为 referrer_identification， 其 字段 
如 下 : 


ri_page_url] STRING 
ri_referrer_url STRING 


现在 ， 我 们 可 以 很 容易 地 通过 如 下 查询 来 添加 链接 类 型 : 


SELECT ri page_url, ri _referrer_url, 
CASE 
WHEN ri_referrer_url is NULL or ri referrer url = “’ THEN “DIRECT 
WHEN ri_referrer_url is in (‘mysitei.com’, 'mysite2.com’, 'mysite3.com’) THEN 
“INSITE 


ELSE ri referrer_url 
END as ri _referrer_url classed 
FROM 
referrer_identification,; 


3. Multiple URL 


这 者 生 非 节 人 简单 的 。 但 是 如 采 我 们 使 用 的 是 一 个 广告 网 络 呢 ? 如 采 
我 们 有 成 百 上 于 的 网 站 呢 ?如 有 果 每 个 站 点 可 以 有 任意 数量 的 URL 结 构 


呢 ? 


如 果 是 这 样 的 话 ， 我 们 可 外 EB 也 有 一 个 包 包含 每 个 URL 的 表 ， 以 及 它 
EL 让 我 们 将 这 张 表 命名 为 site_url， 其 有 如 下 2 个 
字段 : 


SU_Ur1 STRING 
让 我 们 为 之 前 的 那 张 表 referrer_identification 添 加 一 个 新 的 字段 : 


ril site id INT 


现在 我 们 开始 讨论 这 个 问题 。 我 们 要 做 的 是 通过 每 个 链 入 网 址 ， 
看 它 古 否 与 任何 相同 的 站 点 太 匹配。 如果 是 匹配 的 话 ， 那 么 这 是 一 个 
站 内 链接 ， 否 则 不 是 站 内 链接 。 所 以 ， 让 我 们 通过 如 下 查询 进行 确认 : 


SELECT 
c,C_page_url as ri page_url, 
c.c_site id as ri site id, 
CASE 
WHEN c.c_referrer_url is NULL or c.c_referrer_url] = “ ”THEN “DIRECT 
WHEN c.c_insite referrer_flags > 0 THEN ‘INSITE’ 
ELSE c.c_referrer_url 
END as ri_referrer_url classed 
FROM 
(SELECT 
a.a_page_url as c_page_url, 
a.a_referrer_url as c_referrer_url, 
a.a_site_ id as c_ site id, 
SUM(IF(b.b_url <> ‘’, 1, 0)) as c_insite_ referrer_flags 
FROM 
(SELECT 
ri_page_url as a _ page_url, 
ri_referrer_url as a_referrer_url, 
ri_site id as a site_ id 
FROM 
referrer_identification 


)a 

LEFT OUTER JOIN 

(SELECT 
su_site_ id as b_site_ id, 
su_url as b_url 


a.a site id = b.b_site id and 
a.a _ referrer_ url = b.b_url 


) C 


对 于 这 个 查询 语句 有 几 点 需要 说 明 。 在 本 例 中 ， 我 们 使 用 的 是 外 
连接 ， 因 为 我 们 和 希望 有 一 些 外 部 链 入 链接 不 与 其 匹配 ， 这 将 让 它们 通 
过 。 因 此 ， 我 们 只 会 抓 住 确实 匹配 的 条 目 ， 如 果 有 任何 这 样 的 链接 ， 
我 们 知道 它们 来 目 网 站 内 的 某 处 。 


23.2.2 ”计算 复杂 度 


假设 用 户 要 计算 用 户 网 站 、 网 络 或 其 他 什么 东西 的 独立 访客 数量 
的 话 。 我 们 将 使 用 一 个 非 癌 简单 的 假想 表 daily_users 来 表示 : 


不 过 ， 如 采 有 非常 多 的 用 户 而 且 集群 中 又 没有 足够 的 机 咖 的 话 ， 
那么 在 集群 中 计算 一 个 月 的 用 户 数据 都 会 变 得 非 芝 困难 : 


SELECT 

COUNT(DISTINCT du_user_id) 
FROM 

daily_users 


WHERE 
du_date >= ‘2012-03-01’ and 
du_date <= ‘2012-03-31’ 


在 所 有 的 可 能 性 中 ， 如 条 用 户 集群 没有 太 多 问题 ， 则 可 以 使 其 通 
过 map 阶 段 ， 但 是 在 reduce 阶 段 束 会 出 现 问题 。 问 题 束 是 ， 它 能 够 访问 
所 有 的 记录 ， 但 却 不 能 同时 对 其 进行 计数 。 当 然 ， 用 户 也 不 能 每 天 都 
对 其 进行 计算 ， 因 为 这 样 做 可 能 会 有 些 多 余 。 


1. 为 什么 这 是 个 问题 


计数 复杂 度 是 O(n)， 其 中 n 是 记录 的 数量 ， 但 它 有 一 个 比较 高 的 常 
数 因子 。 我 们 可 能 会 想 出 一 些 聪 明 的 切割 方式 ， 来 稍微 降低 一 点 计算 
复杂 度 ， 但 更 容易 的 方式 就 是 减 小 n 的 值 。 虽 然 有 一 个 高 O(n) 并 不 好 ， 
但 大 多 数 真正 的 问题 出 现在 后 面 。 如 果 用 户 处 理 某 个 问题 需要 运行 的 
时 间 是 n+ ， 那 么 谁 在 和 平 如 果 n = 2 还 是 n = 1 呢 。 这 样 确实 会 较 之 前 慢 ， 
但 远 远 没有 n=1 和 n=100 之 间 的 区 别 那 么 大 。 

所 以 ， 如 果 假 设 每 天 都 有 m 条 数目 ， 而 平均 见 余 是 x 的 话 ， 那 么 我 


们 的 第 1 个 查询 将 是 n=31*m 条 记录 。 我 们 通过 创建 一 个 用 来 保存 每 天 重 
复 版 本 的 临时 表 将 查询 记录 减少 到 n=31*(m-x)。 


2. 加 载 一 个 临时 表 
首先 ， 创 建 临 时 表 : 


CREATE TABLE daily_users deduped (dud_user_id STRING ) 
PARTITIONED BY (dud_date STRING ) 


ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ‘\t’; 


然后 我 们 写 一 个 每 天 都 可 以 执行 一 次 的 查询 模板 版 本 ， 然 后 使 用 
它 来 更 新 我 们 的 临时 表 。 我 一 般 将 这 些 操作 称 为 “metajobs”， 所 以 我 们 
可 以 称 为 mj_01.sql: 


INSERT OVERWRITE TABLE daily_users_deduped 
PARTITION (dud_date = ‘:date:’) 


SELECT DISTINCT 
du_user_id 

FROM 
daily_users 

WHERE 
du_date = “:date: 


接 下 来 ， 我 们 写 一 个 脚本 ， 来 替换 组 装 这 个 文件 ， 然 后 再 在 指定 
的 日 期 范围 内 运行 这 个 脚本 。 为 此 ， 我 们 需要 涉及 到 3 个 函数 ， 分 别 
为 : modify_temp_file 画 数 ， 其 用 于 替换 一 个 变量 ，fire_query 芳 数 ， 其 
0 -ff 命令， 最 后 一 个 函数 是 delete， 用 于 
| 除 o 


start_date = ‘2012-03-01’” 
end_date = ‘2012-03-31’ 


for date in date range(start_date, end_date): 
femp_file = modify_temp_file( ‘mj_01.sql’,{’:date:’:my_date}) 
fire_query(temp_file) 
delete(temp_file) 


3. 查询 临时 表 


”运行 这 个 脚本 ， 然 后 就 可 以 得 到 一 个 n=31*(m-) 大 小 的 表 。 现 在 ， 
就 无 需 一 个 大 的 reduce 执 行 过 程 就 可 以 查询 这 个 表 了 。 


SELECT 
COUNT(DISTINCT (dud_uuid) 
R 


FROM 
daily_users_deduped 


如 采 这 还 不 够 的 话 ， 那 么 还 可 以 按照 日 期 来 去 重 ， 也 许可 以 每 次 
两 个 日 期 ， 而 不 管 时 间 间 隔 是 多 少 。 如 果 仍 然 有 困难 ， 那 么 还 可 以 根 
人 
一 步 缩小 nm 


人 


23.2.3 “会话 化 


为 了 分 析 网 络 流量 ， 我 们 第 间 硕 望 能 够 基于 各 种 各 样 的 标准 来 测 
量 热度 。 一 种 方法 吏 是 将 用 户 行为 分 解 到 会 话 中 ， 一 次 会 话 代 表单 一 
的 一 次 “使 用 ”所 包含 的 一 系列 操作 。 一 个 用 户 在 一 天 内 或 者 一 月 中 的 
某 几 天 可 以 多 次 访问 某 个 网 站 ， 但 每 一 次 访问 肯定 古 不 一 样 的 。 


那么 ， 什 么 是 一 个 会 话 呢 ? 一 种 定义 是 指 相 隅 不 超过 30 分 钟 的 一 
连 串 的 活动 就 古 一 个 会 话 。 也 就 是 说 ， 如 采 你 去 你 的 第 1 个 页 面 ， 等 待 
5 分 钟 ， 然 后 去 第 2 个 页 面 ， 那 么 这 是 相同 的 会 话 。 等 待 30 分 钟 后 再 到 
第 3 页 ， 仍 然 是 相同 的 会 话 。 等 待 31 分 钟 跳 转 到 第 4 页 ， 这 次 会 话 将 被 
打破 了 ， 这 将 不 是 第 4 个 访问 页 面 了 ， 而 是 第 2 个 会 话 中 的 第 1 个 页 面 。 


一 旦 我 们 获得 这 些 中 断 信 息 ， 我 们 束 可 以 查看 会 话 的 属性 信息 ， 
来 看 看 发 生 了 什么 事 而 导致 中 断 的 。 和 常规 的 方式 就 是 通过 会 话 长 度 来 
对 链 入 的 页 面 进 行 比较 。 所 以 ， 我 们 可 能 需要 查 清 楚 谷歌 或 Facebook 
是 否 给 予 这 个 网 站 更 好 的 热点 ， 这 也 许可 以 通过 会 话 长 度 来 进行 测 
量 's 


乍 一 看 ， 这 似乎 是 一 个 完美 的 迭代 过 程 。 对 于 每 个 页 面 ， 保 持 倒 
计数 ， 直 到 你 找到 第 1 个 页 面 。 但 Hive 是 不 文 持 大 代 的 。 


不 过 ， 还 古 可 以 解决 这 个 问题 的 。 我 想 将 这 个 处 理 过 程 分 为 4 个 阶 


@ 识别 哪些 页 面 浏 览 量 是 会 话 初 始 者 ， 或 起源” 页 面 。 
@ 对 于 每 个 页 面 ， 将 其 划分 到 正确 的 来 源 页 面 。 
@ 将 所 有 的 页 面 浏 览 量 聚合 到 每 个 来 源 页 面 。 


@ 对 每 个 来 源 页 面 进行 标记 ， 然 后 计算 每 个 会 话 的 热度 。 


这 种 方式 将 产生 一 个 表 ， 其 中 每 一 行 都 表示 一 个 完整 的 会 话 ， 然 
后 用 户 就 可 以 查询 任何 想 知 道 的 信息 了 。 


1. 设置 
首先 定义 表 session_test 的 字段 如 下 : 


st_user_id STRING 
st_pageview_ id STRING 
st_page_url STRING 
st_referrer_url] STRING 


st_timestamp DOUBLE 


这 些 内 容 都 很 简单 ， 不 过 我 需要 提 一 下 st_pageview_id 表 示 的 每 个 
事物 《在 这 种 情况 下 就 是 一 个 页 面 ) 的 唯一 ID。 否 则 ， 多 次 查看 完全 
相同 的 页 面 可 能 会 令 人 比较 困惑 。 本 示例 中 ， 时 间 崔 以 秒 为 单位 。 


2. 找到 来 源 页 面 浏览 量 


好 的 ， 下 面 让 我 们 开始 第 一 步 ( 令 人 震惊 吧 ! ) 。 首 先 看 看 我 们 
征 如 何 找到 这 页 面 浏 览 会 话 的 起 始 页 面 的 。 好 吧 ， 如 采 我 们 假定 任何 
超过 30 分 钟 的 停留 就 意味 着 一 个 新 会 话 的 话 ， 那 么 任意 的 会 话 起 始 页 
都 不 可 能 停留 超过 30 分 钟 或 更 少 的 时 间 。 这 是 一 个 典型 的 案例 总 结 条 
件 。 我 们 要 做 的 束 是 ， 计 算 每 个 访问 页 面 的 次 数 。 然 后 ， 任 何 计数 为 
零 的 页 面 承 一 定 是 一 个 起 始 页 面 。 


为 了 能 做 到 这 一 点 ， 我 们 需要 比较 所 有 可 能 在 这 个 页 面 之 前 的 页 
面 。 这 是 一 个 代价 非常 大 的 操作 ， 因 为 它 需 要 执行 一 个 备 卡 尔 交 叉 乘 
积 。 为 了 防止 数据 脱 胀 到 不 可 收拾 的 大 小 ， 我 们 应 该 使 用 尽 可 能 多 的 
约束 条 件 来 限制 数据 量 。 在 当前 情况 下 ， 限 制 条 件 只 有 用 户 ID， 但 是 
如 采用 户 有 一 个 包含 众多 独立 站 点 的 大 型 网 络 的 话 ， 那 么 还 可 以 按照 
每 个 源 进行 分 组 : 


CREATE TABLE sessionization_step_one_ origins AS 


SELECT 
c.c_user_id as SSsoo_user_id， 
c,C_pageview_id as ssoo_pageview id, 
c,C_timestamp as ssoo_timestamp 
FROM 
(SELECT 


a.a_user_id as Cc_user_id， 
a.a_pageview id as c_ pageview id, 
a.a_timestamp as c.c_ timestamp, 
SUM(IF(a.a timestamp + 1800 >= b.b_timestamp AND 
a.a_ timestamp < b.b_timestamp,1,0)) AS c_nonorigin_flags 
FROM 
(SELECT 
st_user_id as a user_id, 
st_pageview id as a pageview_ id, 
st_timestamp as a_timestamp 
FROM 
session_test 
)a 
JOIN 
(SELECT 
st_user_id as b_user_id, 
st_timestamp as b_timestamp 
FROM 
session_test 
)b 
ON 
a.a_user_id = b.b user_id 
GROUP BY 
a.a_user_id, 
a.a_pageview_ id, 
a.a_timestamp 


c.c_nonorigin_flags 


这 个 SQL 可 能 有 点 长 。 不 过 其 中 重要 的 部 分 是 计算 是 否 是 起 始 页 
码 的 计数 右 ， 也 束 是 我 们 定义 的 define c_nonorigin_flags。 基 本 上 ， 计 
算 过 程 如 下 行 所 示 : 


SUM(IF(a.a timestamp + 1800 >= b.b_timestamp AND 


a.a_ timestamp < b.b_timestamp,1,0)) as c_nonorigin_flags 


我 们 将 其 进行 分 解 ， 一 部 分 一 部 分 进行 介绍 。 首 先 ， 从 子 查 询 a 开 
始 。 我 们 使 用 别名 b 表 示 那 些 候选 数据 。 因 此 ， 第 一 部 分 ， 其 中 的 
a.a_timestamp+1800 >=b.b_timestamp， 表 示 候 选 数据 时 间 惟 不 能 比 限定 
的 时 间 惟 早 30 分 钟 ， 第 二 部 分 ，a.a_timestamp < b.b_timestamp 这 段 SQL 
片段 表示 候选 时 间 戳 比 限定 时 间 惟 值 要 大 ， 这 是 一 个 检查 过 程 ， 如 采 
不 通过 则 返回 FALSE。 同 时 ， 因 为 这 是 个 交叉 运算 ， 因 为 不 能 使 用 候 
选 时 间 崔 作为 目 己 的 限定 时 间 戳 ， 否 则 返回 FALSE。 


现在 ， 产 生 表 sessionization_step_one_origins， 其 字段 信息 如 下 : 


ssoo_user_id STRING 
SSoo_pageview_id STRING 


SSoo_timestamp DOUBLE 
3. 将 PV 分 桶 到 起 始 页 面 中 


开始 第 2 步 的 一 个 好 的 理由 就 是 ， 我 们 需要 找到 某 个 页 面 所 属 的 起 
台 页 面 。 做 法 很 简单 ， 每 个 页 面 的 起 始 页 面 必 定 是 其 之 前 的 最 近 的 页 
面 。 为 此 ， 我 们 进行 另外 一 个 大 的 表 连 接 操 作 来 检查 页 面 时 间 崔 和 所 
有 潜在 的 起 始 页 面 间 的 最 小 夸 值 : 


CREATE TABLE sessionization_step_two_origin_ identification AS 


SELECT 
c.C_user_ id as sstoi user_id, 
Cc.c_pageview id as sstoi pageview id, 
d.d_pageview_ id as sstoi origin pageview_id 
FROM 
(SELECT 
a.a_user_id as c_user_id, 
a.a_pageview_id as c_pageview id, 
MAX(IF(a.a_ timestamp >= b.b_timestamp, b.b_timestamp, NULL)) as c_origin_timestamp 
FROM 
(SELECT 
st_user_id as a user_id, 
st_pageview id as a pageview_ id, 
st_timestamp as a_timestamp 
FROM 
session_test 


sso0o_user_id as b_user_id, 


SSoo_timestamp as b_timestamp 
FROM 


sessionization_step_one_origins 
)b 
ON 
a.a_user_id = b.b_ user_id 
GROUP BY 
a.a_user_id, 
a.a_pageview_id 
) C 
JOIN 
(SELECT 
SSoo_usr_ id as d_user_id, 
ssoo_pageview id as d_pageview id, 
SSoo_timestamp as d_timestamp 
FROM 
sessionization_step_one_origins 
) d 
ON 
c,Cc_user id = d.d_user_ id and 
c.c_origin timestamp = d.dq timestamp 


这 里 还 有 很 多 内 容 要 讲 。 首 和 完 ， 让 我 们 看 看 如 下 这 行 语句 : 


MAX(IF(a,a_timestamp >= b.b_timestamp, b.b_timestamp, NULL)) as c_origin_timestamp 


我 们 再 次 使 用 约束 值 和 候选 值 的 思路 进行 计算 。 在 这 种 情况 下 ，b 
征 每 一 个 约束 值 a 的 候选 值 。 一 个 起 始 候选 值 羡 不 会 比 页 面 访问 的 时 间 
晚 的 ， 所 以 对 于 这 类 情况 ， 我 们 期 望 找到 符合 标准 的 最 新 起 始 页 。 其 
中 null 值 是 无 关 紧 要 的 ， 因 为 我 们 要 人 证 获取 一 个 最 低 值 ， 辟 是 有 至少 
一 个 可 能 的 起 始 页 面 的 (即使 是 这 个 页 面 本 身 )。 这 不 会 得 到 我 们 期 望 的 
起 始 页 面 ， 但 是 可 以 给 我 们 时 间 崔 ， 这 样 我 们 惑 可 以 根据 时 间 鹤 来 判 
断 是 否 古 起 始 页 面 。 


在 这 里 ， 我 们 仅仅 是 将 这 个 时 间 戳 气 所 有 其 他 次 在 的 起 始 页 面 时 
间 惟 进行 匹配 ， 然 后 我 们 束 可 以 知道 哪些 页 面 属于 哪些 起 始 页 面 。 最 
终 产 生 表 sessionization_step_two_origin_identification， 其 字段 信息 如 下 : 


sstoi_user_id STRING 
sstoi pageview id STRING 


sstoi origin_pageview_id STRING 


值得 一 提 的 是 ， 这 不 是 识别 起 始 页 面 的 唯一 方法 。 用 户 可 以 基于 


引入 ， 标 记 出 所 有 外 部 链接 、 主 页 URL 或 空白 链 入 页 面 (表示 是 直接 流 
量 ) 作 为 一 个 起 始 会 话 。 用 户 还 可 以 基于 动作 ， 只 测量 鼠标 点 击 后 的 动 
作 。 还 是 有 很 多 选择 方案 的 ， 但 最 重要 的 是 确定 什么 样 的 会 话 征 起 始 


会 话 。 
4. 对 起 始 页 面 进行 聚合 
对 于 这 一 点 ， 处 理 起 来 非常 容易 。 第 3 步 ， 我 们 将 会 对 起 始 页 面 进 


行 聚 合 ， 这 个 过 程 真 的 ， 真 的 商 单 。 对 于 每 个 起 始 页 面 ， 计 算 其 对 应 
的 页 面 浏览 量 : 


CREATE TABLE Sessionization_step_three_origin_aggregation AS 


SELECT 
a.a_user_id as sstoa user_id, 
a.a_origin_ pageview_id as sstoa origin_ pageview_ id, 
COUNT(1) as sstoa pageview count 
FROM 
(SELECT 
ssoo_user_id as a _ user_id 
ssoo_pageview id as a origin pageview id 
FROM 
sessionization_step_one_origins 


(SELECT 
sstoi user_id as b_user_id, 
sstoi origin pageview id as b_origin pageview id 
FROM 
sessionization_step_two_origin_identification 
)b 
ON 
a.a_user_id = b.b_user_id and 
a.a_origin_ pageview id = b.b_origin pageview_id 
GROUP BY 


a.a_user_id, 
a.a_origin_pageview_id 


5. 按照 起 始 页 面 类 型 进行 聚合 


现在 是 最 后 一 步 了 ， 我 们 可 以 不 必 保留 Se 
尤其 对 于 在 前 面 的 处 理 步骤 之 一 的 起 始 页 面 来 说 。 然 而 ， 如 采用 户 需 
要 注意 很 多 细 市 的 话 ， 那 么 在 最 后 的 处 理 阶段 也 是 可 以 很 容易 将 需 
的 信息 添加 进来 的 。 下 面 是 第 4 步 : 


CREATE TABLE sessionization_step_four_qualitative_ labeling 


SELECT 
a.a_user_id as ssfql user_id, 
a.a_origin pageview_id as ssfql origin_ pageview_ id, 
b.b_timestamp as ssfql_ timestamp, 
b.b_page url as ssfql_page_url, 
b.b_referrer_url as ssfql_referrer_url, 
a.a_pageview count as ssqfl]_pageview count 
(SELECT 
sstoa user_id as a user_id, 
sstoa_ origin_ pageview_id as a _ origin_ pageview_ id, 
sstoa_ pageview_ count as a_pageview_ count 
FROM 
sessionization_step_three_origin_aggregation 


)a 

JOIN 

(SELECT 
st_user_id as b_user_id, 
st_pageview id as b_pageview_ id, 
st_page_url as b_page_url, 
st_referrer_url] as b_referrer_url, 
st_timestamp as b_timestamp 

FROM 
session_test 


a.a_user_id = b.b_user_id and 
a.a_origin_pageview_ id = b.b_pageview_id 


6. 衡量 热度 


现在 ， 使 用 我 们 的 最 终 表 ， 我 们 可 以 做 任何 我 们 想 要 做 的 事情 。 
假设 我 们 想 知道 会 话 数量 、 平 均 每 个 会 话 页 面 浏览 量 、 每 次 会 话 的 加 
权 平均 综合 浏览 量 以 及 最 大 或 最 小 浏览 量 。 那 么 我 们 可 以 选择 任何 我 
们 想 要 的 标准 ， 或 根本 没有 任何 标准 。 但 是 在 这 种 情况 下 ， 我 们 通过 
链接 URI 能 找到 答案 ， 其 流量 来 源 具有 最 好 的 热度 。 只 是 为 了 好 玩 ， 
让 我 们 也 看 看 谁 给 了 我 们 最 独特 的 用 户 


SELECT 
PARSE_URL(ssfql_referrer_url, ‘HOST’) as referrer_host, 
COUNT(1) as session_count, 
AVG(ssfql_pageview count) as avg_pvs_per_session, 
SUM(ssfq_pageview count)/COUNT(1) as weighted avg_pvs_per_session, 
MAX(ssfql_pageview count) as max_pvs_per_session, 


MIN(ssfql_pageview count) as min_pvs_per_session, 
COUNT(DISTINCT ssfql_usr_id) as unique_users 
FROM 
sessionization_step_three_origin_aggregation 
GROUP BY 
PARSE_URL(ssfql_referrer_url, ‘HOST’) as referrer_host 


然后 我 们 就 可 以 得 到 结果 了 。 我 们 可 以 查看 到 哪个 URL 页 面 热 度 
最 大 ， 以 及 确定 忠实 用 户 是 哪些 ， 等 等 。 一 旦 我 们 拥有 一 个 包 售 有 这 
一 切 信 息 的 临时 表 ， 尤 其 是 具有 一 个 更 完整 的 定性 属性 信息 的 表 ， 我 
们 束 可 以 回答 备 种 各 样 的 用 户 热 度 问题 。 


23.3 ”NASA 喷气 推进 实验 室 
23.3.1 区域 气 候 模 型 评价 系统 


一 Chris A. Mattmann 、 Paul Zimdars ~、 Cameron Goodale 、 Andrew FEF. 
Hart 、 


Jinwon Kim、Duane Waliser、Peter Lean 共 同 编写 


自 2009 年 以 来 ， 我 们 在 美国 宇航 局 (NASA) 喷气 推进 实验 室 
YJPL) 的 团队 就 已 经 积极 发 展 引 出 了 一 个 区 域 气 候 模 型 评价 系统 
(RCMES) 。 这 个 系统 起 先是 在 美国 复苏 和 再 投资 法 案 (ARRA) 资 
助 下 展开 的 ， 此 系统 有 以 下 几 个 目标 。 


@ 便于 评价 和 分 析 区 域 气候 模式 模拟 输出 ， 其 可 以 通过 对 质量 受 
欣 的 参考 数据 集 的 可 用 性 的 观察 和 对 各 种 传 感 硕 的 分 析 理 解 进行 评价 


和 分 析 。 这 是 一 个 有 效 的 数据 库 结构 ， 是 一 组 用 于 计算 度量 模型 评价 
0 


@ 方便 汇集 大 量 的 复杂 和 有 异 构 软 件 工具 和 数据 访问 的 功能 ， 用 于 
展示 、 重 组 、 重 新 格式 化 和 可 视 化 ， 这 样 便于 将 如 偶 关 图 这 样 的 最 终 
产品 很 容易 地 传递 给 最 终 用 户 。 


四 文 持 区 域 气候 变化 的 评估 ， 并 进行 影响 分 析 ， 而 且 还 需要 通知 
决策 者 〈 如 地 方 政府 、 农 业 部 门 、 国 家 政府 、 水 文学 家 等 ) ， 这 样 他 
们 可 以 做 出 对 于 大 金融 和 社会 具有 重大 影响 的 重要 的 决策 。 


@ 可 以 殉 服 数据 格式 和 元 数据 的 异 构 性 的 问题 (例如 NetCDF3/4， 
CF 元 数据 规范 ，HDF4/5，HDF-EOS 元 数据 规范 ) 。 


@ 处 理 时 空 差异 (如 将 数据 进行 180/80 的 经 纬度 分 析 ， 例 如 数据 
可 以 是 一 个 360/360 度 的 经 纬度 网 格 ) ， 并 确保 可 能 最 初 是 日 数据 的 数 
据 ， 是 可 以 和 月 数据 进行 对 比 的 。 


@ 文 持 弹性 扩展 ， 在 进行 区 域 研究 时 ， 需 要 特别 的 遥感 数据 和 和 气 
候 模 型 输出 数据 ， 并 需要 进行 一 系列 的 分 析 ， 人 然后 瑟 会 摧毁 特定 的 系 
统 实例 。 换 句 话说 ， 文 持 瞬 人 态 分 析 以 及 快速 构建 /解构 RCMES 实 例 。 图 
23-2 显 示 了 区 域 气候 标 型 评价 系统 的 体系 结构 和 数据 流 。 


RCMED 


空间 /时 间 数 据 
查询 子 集 


空间 /时 间 维 度 的 
重新 网 格 划分 


按 一 定 周期 循环 
进行 合并 


指标 计算 〈 如 乖 
离 率 、RMSE 等 ) 


Apache Sqoop Cloudera Hue (CDH3) 


Apache HIVE 


图 例 


i 


图 23-2” JPL 架构 图 


为 实现 这 些 目标 ， 我 们 已 经 构建 了 一 个 多 层面 的 系统 ， 如 图 23-2 所 
示 。 从 左 到 右 看 下 这 个 图 ， 从 观测 采集 的 可 用 的 参考 数据 集 ， 特 别 是 
从 卫星 遥感 采集 的 数据 集 ， 根 据 用 于 评价 的 气候 模型 所 需 的 气候 参数 
进入 到 系统 。 这 些 参数 都 存储 在 各 种 任务 的 数据 集中 ， 这 些 数据 集 被 


安置 在 一 些 外 部 存储 库 中 ， 最 终 送 入 到 RCMES 系 统 的 数据 库 组 件 
(RCMED: 区 域 气候 模型 评价 数据 库 ) 中 。 


举 一 个 例子 ，AIRS 是 NASA 的 大 气 红 外 探测 器 ， 其 可 以 提供 很 多 
参数 ， 包 括 表 面 空气 温度 、 温 度 和 重力 势 ，MODIS 是 NASA 的 热 感 成 
像 光 谱 仪 ， 其 可 以 的 提供 参数 包括 云 分 数 ， 而 TRMM 是 NASA 的 热带 降 
雨 测量 任务 ， 其 提供 参数 包括 每 月 的 降雨 量 。 这 些 信息 是 在 我 们 
RCMES 系 统 网 站 上 都 进行 了 总 结 ， 网 址 是 
http://rcmes.jpl.nasa.gov/rcemed/param， 如 图 23-3 所 示 。 


WRM Hadoop CDHv3 集群 


Argo - Hadoop 
master + JobTracker 


WRM 私有 网 络 - GigE 


高 压 -从 属 节 点 ， 包 括 ” 低压 -从 属 节 点 ， 包 括 ” 冷 锋 - 从 属 节 点 ， 包 括 ”上 暧 锋 - 从 属 节 点 ， 包 括 
DataNode 和 Task Tracker DataNode 和 Task Tracker DataNode 和 Task Tracker DataNode 和 Task Tracker 


图 23-3” JPL 物理 架构 图 


数据 集 是 使 用 Apache OODT 抽 取 器 框架 加 载 到 RCMED 中 的 ， 其 所 
需 的 参数 ， 以 及 参数 值 、 空 间 和 时 间 约 束 (以 及 可 选 的 高 度 约束 ) 都 被 装 


载 进去 了 ， 而 且 还 可 以 进行 潜在 的 更 改 (如 规范 化 ， 使 用 相同 的 坐标 
系统 ， 从 不 同 单位 值 进 行 换算 ) ， 最 终 装 载 到 一 个 MySQL 数 据 库 中 。 
加 载 到 MySQL 数 据 库 中 的 数据 、RCMED， 通 过 空间 /时 间 查 询 和 构造 
子 集 web 服 务 公开 给 外 部 客户 ， 有 具体 内 容 就 是 另 一 个 话题 了 。 对 于 所 有 
的 意图 和 目的 ， 其 提供 了 和 OPeNDAP 同 样 的 功能 。 


右边 的 图 显示 的 是 区 域 气候 模型 评估 工具 包 (RCMET)。 其 为 用 户 
提供 了 能 够 从 RCMED 和 在 其 他 地 方 产 生 的 气候 模型 输出 数据 进行 引用 
的 能 力 ， 并 可 以 重组 这 些 数据 ， 用 于 在 时 间 和 空间 上 进行 匹配 ， 并 将 
模型 数据 评估 的 模型 输出 与 用 户 选 择 的 参考 数据 进行 比较 参考 。 此 
时 ， 系 统 允 许 按照 季 记 性 周期 合成 (例如 ，N 年 的 所 有 一 月 份 ， 或 所 有 
收 季 )， 并 为 最 终 指 标 计 算 准 备 数据 ， 也 束 是 说 ， 比 较 了 模型 输出 值 与 
遥感 数据 观测 参数 及 其 值 。 系 统 支 持 多 种 指标 ， 如 偏差 计算 、 均 方 根 
误 苇 (RMSE)， 并 生成 相关 的 可 视 化 图 形 ， 包 括 传统 的 饼 图 和 为 科学 使 
用 /决策 支持 的 泰勒 图 。 


23.3.2 ”我 们 的 经 验 : 为 什么 使 用 Hive 


那么 ， 在 哪里 使 用 Hive 呢 ? 在 载 入 了 60 亿 行 (经 度 、 维 度 、 时 
间 、 数 据 值 、 高 度 ) 数据 集 到 MySQL 后 ， 系 统 骨 省 了 ， 并 经 历 过 数据 
丢失 。 这 可 能 部 分 是 因为 我 们 最 初 的 策略 是 将 所 有 的 数据 都 存储 到 单 
的 一 张 表 中 了 。 后 来 ， 我 们 调整 了 策略 通过 数据 集 和 参数 进行 分 
0 了 额外 的 消耗 ， 而 这 并 非 是 我 们 愿意 接 
A] o 


相反 ， 我 们 决定 尝试 使 用 Apache Hive 技 术 。 我 们 安装 了 Hive 0.5 + 
20， 使 用 CDHv3 和 Apache Hadoop(0 20 2 + 320)。CDHv3 还 包含 有 许多 
其 他 相关 工具 ， 包 括 Sqoop 和 Hue 这 些 在 我 们 的 架构 中 都 标识 出 来 了 ， 
如 图 23-3 底 部 所 示 。 


我 们 使 用 Apache Sqoop 转 储 数据 到 Hive 中 ， 然 后 通过 写 一 个 Apache 
OODT 包 装 器 ， 来 使 Hive 按 照 空间 /时 间 约 束 查 询 数 据 ， 然 后 将 结果 提 
供给 RCMET 和 其 他 用 户 (图 23-2 中 间 部 分 显示 )。RCMES 和 集群 的 完整 的 
架构 如 图 23-3 所 示 。 我 们 有 5 台 机 器 ， 包 括 图 中 所 示 的 一 个 主 /从 配置 ， 
通过 一 个 运行 GigE 的 私人 网 进行 连接 。 


23.3.3 ”解决 这 些 问题 我 们 所 面临 的 挑战 


在 将 数据 从 MySQL 迁 移 到 Hive 的 过 程 中 ， 我 们 经 历 了 在 做 一 些 简 
单 的 任务 时 ， 啊 应 时 间 绥 慢 的 问题 ， 例 如 一 个 简单 的 计数 DB 查询 ( 例 
如 :hive> select count(datapoint_id) from dataPoint)。 初 始 化 时 ， 我 们 辐 
单个 表 中 载 入 了 25 亿 条 数据 ， 并 在 机 咒 配 置信 息 中 记录 下 来 ，Hive 对 
这 25 亿 条 记录 执行 计数 查询 用 了 大 约 5~6 分 钟 ， (查询 完整 的 68 亿 条 记 
录 大 约 需 要 15~17 分 钟 )。Reduce 过 程 也 比较 快 (因为 我 们 使 用 的 是 一 个 
对 于 * 的 count 操 作 ， 所 以 我 们 会 经 历 一 个 reduce 阶 段 )， 但 是 map 阶 段 需 
要 消耗 大 部 分 的 时 间 ( 大 于 占 总 执行 时 间 的 95%)。 那 个 时 候 我 们 的 系统 
由 6 个 系统 (4 x 四 核 ) 组 成 ， 每 台 系 统 大 约 有 24 GB 的 RAM (所 有 的 机 器 
如 图 23-3 所 示 ， 再 加 上 一 个 从 男 一 个 集群 价 来 的 同类 型 的 机 器)。 


我 们 试图 添加 更 多 的 节点 ， 增 加 map tasktrackers( 许 多 不 同 的 #s)， 
改变 DFS 块 大 小 (32MB、64MB、128 MB、256MB)， 利 用 LZO 压 缩 ， 
并 改变 许多 其 他 配置 变量 (例如 io、sort.factor、io.sort.mb)， 都 没有 有 效 
地 降低 完成 全 局 计数 所 需要 的 时 间 。 但 我 们 却 发 现 一 直 存 在 一 个 高 1 / O 
等 待 节点 ， 而 无 论 我 们 执行 多 少 任 务 。 数 据 库 的 大 小 大 约 是 200GB， 
而 使 用 MySQL 对 25 亿 和 67 亿 行 数据 执行 计数 只 需要 花 几 秒 钟 时 间 。 


Hive 社 区 成 员 加 入 到 了 我 们 公司 ， 为 我 们 提供 了 新 的 视角 ， 期 间 
HDFS 读 取 速 度 提 高 到 大 约 60 MB / 秒 ， 对 比 本 地 磁盘 读 取 速 度 是 1 GB / 
秒 ， 这 当然 还 取决 于 网 络 速度 和 namenode 的 人 负 从 情况 。 社 区 成 员 提 出 
的 建议 是 ， 我 们 在 Hadoop 任 务 中 大 约 需 要 16 个 Mapper 才 能 和 一 个 本 地 
非 Hadoop 任 务 的 I/ O 性 能 相当 。 此 外 ，Hive 社 区 成 员 建 议 我 们 通过 减 
少 每 个 Mapper 处 理 的 分 割 大 小 (输入 大 小 ) 来 增加 总 体 Mapper 的 数量 (也 
瓯 是 增加 并 发 量 )， 并 指出 我 们 应 该 检查 以 下 参数 : 
mapred.min.split.size、mapred.max.split.size、 
mapred.min.split.size.per.rack 和 mapred.min.split.size.per.node， 并 建议 这 
些 参数 值 应 设置 为 64 MB。 最 后 ， 社 区 建议 我 们 查看 一 个 基准 计算 过 
程 ， 也 就 是 通过 使 用 count(1) 而 不 是 count (datapoint_id) 来 计算 行 数 ， 
为 没有 列 引 用 意味 着 没有 序列 化 和 反 序 列 化 的 过 程 ， 所 以 因为 前 者 更 
快 ， 例 如 ， 如 采用 户 的 表 是 RCFile 格 式 存 储 的 。 〈 译 者 注 : 原文 是 后 
者 更 快 ， 实 际 上 后 者 是 需要 序列 化 和 反 序 列 化 过 程 的 。) 


基于 上 述 反 馈 ， 我 们 可 以 为 RCMES 的 Hive 集 群 基于 一 个 计数 基准 
查询 进行 调 优 ， 并 在 规定 的 啊 应 时 间 内 返回 一 个 计数 查询 ， 最 终 利 用 
上 述 资 源 ， 可 以 在 15 秒 内 从 RCMET 中 对 数 十 亿 行 数据 进行 空间 /时 间 碍 
询 ， 这 使 Hive 对 于 我 们 的 系统 架构 而 许 ， 成 为 一 个 可 行 的 和 绝 佳 的 迁 


择 。 


我 们 已 经 描述 了 在 JPL RCMES 系 统 中 使 用 Apache Hive 的 情况 。 我 
们 在 一 个 案例 研究 中 描述 了 我 们 想 要 通过 Hive 探 索 云 计算 技术 并 替代 
MySQL， 并 从 配置 需求 上 使 它 的 规模 水 平 可 以 存储 数 百 亿 行 数据 ， 并 
有 弹性 地 摧毁 和 重建 存储 于 其 中 的 数据 。 


Hive 很 好 地 满足 了 我 们 的 系统 需求 ， 而 我 们 正 积极 寻找 更 多 的 方 
法 将 其 集成 到 RCMES 系 统 


23.4 Photobucket 


Photobucket 是 当前 因特网 上 最 大 的 专业 网 上 相 禾 服务 公司 。 其 在 
2003 年 由 Alex Welch 和 Darren Crystal 创 立 ， 随 后 Photobucket 很 快 成 为 
互联 网 上 最 流行 的 网 站 之 一 ， 并 吸引 了 超过 一 亿 名 用 户 和 数 十 亿 的 存 
储 和 共享 媒体 。 用 户 和 系统 数据 分 布 在 成 百 上 千 个 MySQL 实 例 上 、 成 
于 上 万 个 web 服务 硕 上 和 PB 级 别 的 文件 系统 上 。 


23.4.1 Photobucket 公司 的 大 数据 应 用 情况 


在 2008 年 之 前 ，Photobucket 还 没有 专门 的 内 部 分 析 系 统 。 业 务 用 
户 提出 的 问题 横 跨 数 百 台 MySQL 实 例 并 最 终 在 Excel 中 手动 聚合 。 


在 2008 年 ，Photobucket 首 次 开始 着 手 实施 数据 仓库 建设 ， 人 致力 于 
解决 由 一 个 快速 增长 的 公司 所 囊 来 的 日 益 复 杂 的 数据 处 理 问 题 。 


第 一 次 迭代 的 数据 仓库 是 一 个 开源 的 系统 ， 包 括 一 个 Java SQL 优 
化 妖 和 一 组 底层 的 PostGreSQL 数 据 库 。 这 个 系统 直到 2009 年 都 工作 完 
好 ， 但 是 其 架构 上 的 缺陷 很 快 明 显 凸 现 。 工 作 数据 集 迅 速 变 得 比 实际 
可 提供 的 内 存 大 ， 再 加 上 在 PostgreSQL 节 点 上 重新 对 数据 进行 划分 非 
利之 困难 ， 导 致 我们 不 得 不 对 集群 进行 扩大 。 


在 2009 年 ， 我 们 开始 调查 系统 ， 使 我 们 能 够 随 着 数据 量 的 不 断 增 
长 不 断 地 同 外 扩展 ， 使 之 仍然 能 够 满足 我 们 与 业务 用 户 签 订 的 服务 等 
级 协议 (SLA) 。Hadoop 迅 速成 为 消费 和 分 析 每 日 由 系统 生成 的 TB 级 
别 的 数据 最 受 欢 迎 的 工具 ， 但 是 阻碍 全 面 使 用 的 一 个 负面 因素 就 是 对 
于 简单 的 ad-hoc 碍 询 都 要 编写 复杂 的 MapReduce 程 序 。 值 得 庆 科 的 是 ， 
Facebook 几 周 后 开源 的 Hive 很 好 地 破解 了 这 个 ad-hoc 碍 询 复杂 的 问题 。 


Hive 相 对 于 以 前 的 数据 仓库 实现 具有 很 多 优势 。 


关于 为 什么 我 们 选择 Hadoop 和 Hive， 这 里 列举 了 几 个 例子 。 

@ 能 够 处 理 结构 化 和 非 结构 化 数据 。 

@ 从 Flume、Scribe 或 MountableHDFS 中 实时 导数 据 到 HDFS 中 。 

@ 可 以 通过 UDF 进 行 功 能 扩展 ，。 

@ 一 个 专门 为 构建 OLAP 与 OLTP 的 文档 充分 的 、 类 SQL 的 接口 。 
23.4.2 ”Hive 所 使 用 的 硬件 资源 信息 


对 于 数据 节点 使 用 Dell R410，4x2TB 硬 盘 ，24GB RAM: 对 于 管 
理 节点 使 用 Dell R610，2x146GB (RAID 10) 硬盘 和 24GB RAM 。 


23.4.3 ”Hive 提 供 了 什么 


Photobucket 公 司 使 用 Hive 的 主要 目标 是 为 业务 功能 、 系 统 性 能 和 
用 户 行为 提供 答案 。 为 了 满足 这 些 需 求 ， 我 们 每 晚 都 要 通过 Flume 从 数 
百 台 服务 器 上 的 MySQL 数 据 库 中 转 储 来 目 Web 服 务 右 和 目 定 义 格式 日 
志 TB 级 别 的 数据 。 这 些 数据 有 助 于 文 持 整个 公司 许多 组 织 ， 比 如 行政 
管理 、 广 告 、 客 户 文 持 、 产 品 开 发 和 操作 ， 等 等 。 对 于 历史 数据 ， 我 
们 保持 所 有 MySQL 在 每 月 的 第 一 天 创建 的 所 有 的 数据 作为 分 区 数据 并 
保留 30 天 以 上 的 日 志文 件 。Photobucket 使 用 一 个 定制 的 ETL 框 架 来 将 
MySQL 数 据 库 中 数据 迁移 到 Hive 中 。 使 用 Flume 将 日 志文 件数 据 写 入 到 
HDFS 中 并 按照 预定 的 Hive 流 程 进行 处 理 。 


23.4.4 Hive 支 持 的 用 户 有 哪些 


行政 管理 依赖 于 使 用 Hadoop 提 供 一 般 业 务 健康 状况 的 报告 。Hive 
允许 我 们 解析 结构 化 数据 库 数 据 和 非 结 构 化 的 点 击 流 数据 ， 以 及 业务 
所 涉及 的 数据 格式 进行 读 取 。 


广告 业务 使 用 Hive 师 选 历 史 数 据 来 对 广告 目标 进行 预测 和 定义 配 
额 。 产 品 开发 无 颖 是 该 组 织 中 产生 最 大 数量 的 特定 的 查询 的 用 户 了 。 
对 于 任何 用 户 群 ， 时 间 间 隔 变 化 或 随时 间 而 变化 。Hive 征 很 重要 的 ， 
因为 它 允 许 我 们 通过 对 在 当前 和 历史 数据 中 运行 A/B 测 试 来 判断 在 一 
个 快速 变化 的 用 户 环境 中 新 产品 的 相关 特性 。 


在 Photobucket 公 司 中 ， 为 我 们 的 用 户 捉 供 一 流 的 系统 生 最 重要 的 
目标 。 从 操作 的 角度 来 看 ，Hive 被 用 来 汇总 生成 跨 多 个 维度 的 数据 。 
在 公司 里 知道 最 流行 的 媒体 、 用 户 、 参 考 域 旦 非常 重要 的 。 探 制 费 用 
对 于 任何 组 织 都 是 重要 的 。 一 个 用 户 可 以 快速 消耗 大 量 的 系统 资源 ， 

并 显著 增加 每 月 的 文 出 。Hive 可 以 用 于 识别 和 分 析出 这 样 的 恶意 用 

户 ， 以 确定 哪些 是 符合 我 们 的 服务 条 称 ， 而 哪些 是 不 符合 的 。 也 可 以 
使 用 Hive 对 一 些 操作 运行 A / B 测 试 来 定义 新 的 硬件 需求 和 生成 ROI 计 
算 。Hive 将 用 户 从 的 层 MapReduce 代 码 解 放出 来 的 能 力 意味 着 可 以 在 几 
个 小 时 或 几 天 内 束 可 以 获得 答案 ， 而 不 是 之 前 的 数 周 。 


23.5 ”SimpleReach 
Eric Lubow 


在 SimpleReach 中 ， 我 们 使 用 Cassandra 来 存储 我 们 所 有 的 社交 网 络 
产生 的 原始 数据 。 行 的 键 的 格式 是 一 个 账号 ID (其 也 是 MongoDB 的 
ObjectId) 和 一 个 内 容 元 素 ID (被 跟踪 的 内 容 元 素 的 URL 链 接 的 MD5 哈 
希 值 ) ， 这 两 者 间 使 用 下 划 线 进行 分 割 ， 结 果 集 中 的 数据 也 是 按照 这 
ne 。 这 行 中 的 列 是 类 似 于 如 下 展示 的 混合 在 一 起 的 
==2 | 。 


4e87f81ca782f3404200000a_8c825814degac34bb9103e2193a5b824 
=> (column=meta:published-at, value=1330979750000, timestamp= 1338919372934628 ) 


=> (column=hour:1338876000000_digg-diggs, value=84, timestamp= 1338879756209142) 
=> (column=hour:1338865200000_googleplus-total, value=12, timestamp= 
1338869007737888) 


为 了 能 够 访问 这 些 组 合 列 ， 我 们 需要 知道 列 名 对 应 的 十 六 进 制 键 
的 值 。 在 我 们 的 例子 中 ， 世 就 是 我 们 需要 执行 列 名 (meta:'published-at') 
的 十 六 进 制 的 键 值 。 这 个 十 六 进 制 键 和 值 的 形式 如 下 ; 


00046D65746100000C7075626C69736865642D617400 =meta:published-at 


一 旦 将 列 名 转换 成 十 六 进 制 格式 ，Hive 碍 询 歼 可 以 对 之 进行 处 理 
了 。 查 询 语句 的 第 一 部 分 是 LEFT SEMI JOIN， 其 用 于 模拟 一 个 子 查询 
SQL。 后面 所 有 的 使 用 SUBSTR 和 INSTR 的 引用 都 是 来 处 理 不 同情 况 的 
组 合 列 的 。 因 为 我 们 已 经 知道 “hour:*” 列 〈 例 如 ， 
SUBSTR(r.column_name，10，13)) 的 第 10~ 第 23 个 字符 是 时 间 惟 ， 所 
以 我 们 可 以 将 其 截取 出 来 并 作为 返回 值 返回 ， 或 者 用 作 其 他 对 比 。 


INSTR 用 于 对 比 列 名 并 保证 返回 的 结果 集 在 输出 中 总 是 位 于 相同 位 置 
的 相同 列 。 作 为 Ruby 函 数 的 一 部 分 的 SUBSTR 也 用 于 对 比 。SUBSTR 返 
回 值 是 一 个 以 襄 秒 表示 的 时 间 戳 〈long 型 的 ) ，start_date 和 end_date 同 
样 是 这 样 的 以 毫秒 表示 的 时 间 戳 。 这 意味 着 传 入 的 值 可 以 作为 列 名 的 
一 部 分 进行 匹配 。 


这 个 查询 的 目的 是 将 数据 从 Cassandra 中 导出 成 CVS 文 件 ， 最 终 为 
我 们 的 出 版 商 提 供 聚 合 后 的 数据 。 其 是 通过 我 们 Rails 栈 中 的 一 个 离线 
处 理 任务 完成 的 。 具 有 一 个 完整 的 CSV 文 件 意味 着 Hive 查 询 中 必须 要 
包含 有 所 有 的 使 用 到 的 列 的 列 名 (这 意味 着 我 们 需要 在 没有 数据 的 地 
1 。 我们 可 以 通过 使 用 CASE 语 句 将 我 们 的 宽 行 转换 成 固定 
IIHA o 


如 下 是 处 理 CSV 文 件 的 HiveQL 语 句 : 


SELECT CAST(SUBSTR(r.column_name, 10, 13) AS BIGINT) AS epoch, 
SPLIT(r.row_key, '_')[0] AS account_id, 

SPLIT(r.row_key, '_')[1] AS id, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'pageviews-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS pageviews, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'digg-digg') > 0 

THEN r.value ELSE '0' END AS INT)) AS digg, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'digg-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS digg_ref, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'delicious-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS delicious, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'delicious-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS delicious_ref, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'googleplus-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS google_plus， 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'googleplus-referrer ') > 0 
THEN r.value ELSE '0' END AS INT)) AS google plus_ref, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'facebook-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS fb_total, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'facebook-referrer ') > 0 
THEN r.value ELSE '0' END AS INT)) AS fb_ref, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'twitter-tweet') > 0 
THEN r.value ELSE '0' END AS INT)) AS tweets, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'twitter-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS twitter_ref, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'linkedin-share') > 0 
THEN r.value ELSE '0' END AS INT)) AS linkedin, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'linkedin-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS linkedin_ref, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'stumbleupon-total') > 0 
THEN r.value ELSE '0' END AS INT)) AS stumble_ total, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'stumbleupon-referrer') > 0 
THEN r.value ELSE '0' END AS INT)) AS stumble_ref, 

SUM(CAST(CASE WHEN INSTR(r.column_name, 'social-actions') > 0 
THEN r.value ELSE '0' END AS INT)) AS social actions, 
SUM(CAST(CASE WHEN INSTR(r.column_name, 'referrer-social') > 0 
THEN r.value ELSE '0' END AS INT)) AS Social_ref， 

MAX(CAST(CASE WHEN INSTR(r.column_name, "Score-realtime') > 0 


THEN r.value ELSE '0.0' END AS DOUBLE)) AS score_rt 

FROM content_social delta r 

LEFT SEMI JOIN (SELECT row_key 

FROM content 

WHERE HEX(column_name) = '00046D65746100000C7075626C69736865642D617400 
AND CAST(value AS BIGINT) >= #{start_date} 

AND CAST(value AS BIGINT) <= #{end_date} 

) C ON c,row_key = SPLIT(r.row key, '_')[i1] 

WHERE INSTR(r.column_name, 'hour') > 0 

AND CAST(SUBSTR(r.column_name, 10, 13) AS BIGINT) >= #{start_date} 
AND CAST(SUBSTR(r.column_name, 10, 13) AS BIGINT) <= #{end_date} 
GROUP BY CAST(SUBSTR(r.column_name, 10, 13) AS BIGINT), 
SPLIT(r.row_key, '_')[90], 

SPLIT(r.row_key, '_')[1] 


这 个 查询 的 输出 是 以 逗号 分 隔 的 文件 (CSV 文件) ， 0 
例子 所 示 (为 清晰 展示 对 输出 中 一 些 行进 行 了 转行 并 增加 了 空 行进 和 人 
分 隔 
epoch,account_id, id,pageviews, digg,digg_ref,delicious,delicious_ref， 


google_plus,google plus_ref,fb_total,fb_ref, tweets, twitter_ref, 
linkedin,]linkedin_ref,stumble total,stumble_ref,social actions,social ref,score_rt 


1337212800000, 4eb331eea782f32acc000002, eaff81bd10a527f589f45c186662230e, 
39,0,0,0,0,0,0,0,2,0,20,0,0,0,0,0,22,0 


1337212800000, 4f63ae61a782f327ce000007, 940fd3e9d794b80012d3c7913b837dff， 
101,0,0,0,0,0,0,44,63,11,16,0,0,0,0,55,79,69.,64308064 


1337212800000, 4f6baedda782f325f4000010,e70f7d432ad252be439bc9cf1925ad7c， 
260,0,0,0,0,0,0,8,25,15,34,0,0,0,0,23,59,57.23718477 


1337216400000, 4eb331eea782f32acc000002, eaff81bd10a527f589f45c186662230e, 
280, 9,0,0,0,0,0,37,162,23,15,0,0,0,2,56,179,72.45877173 


1337216400000, 4ebd76f7a782f30c9b690014, fb8935034e7d365e88dd5beled44b6dd ， 
11,0,0,0,0,0,0,0,1,1,4,0,0,0,0,0,5,29.74849901 


23.6 Experiences and Needs from the Customer 
Trenches 


标题 : 来 自 Karmasphere 的 视角 


一 一 Nanda Vijaydev 


23.6.1 介绍 


在 超过 18 个 月 的 时 间 里 ，Karmasphere 一 直 忙 于 越 来 越 多 的 使 用 
Hadoop 的 公司 ， 这 些 公 司 都 转 回 使 用 Hive 作 为 分 析 师 团队 和 业务 团队 
提供 服务 的 最 优 方式 。 本 章 的 第 一 部 分 说 明了 我 们 在 客户 环境 中 不 断 
反复 使 用 Hive 进 行 分 析 的 一 些 实际 场景 的 使 用 技术 。 

我 们 所 涵盖 的 使 用 场景 例子 如 下 。 

@ 为 Hive 提 供 最 优 数据 格式 化 类 型 。 

@ 分 区 和 性 能 。 


@ 使 用 Hive 画 数 (包括 正则 、Explode 函 数 和 连词 ) 进行 文本 分 


随 看 我 们 一 直 合 作 的 公司 计划 并 生产 中 使 用 Hive， 他 们 一 直 在 寻 
找 一 些 增强 功能 ， 使 基于 Hive 获 取 Hadoop 更 容易 使 用 、 更 富有 成 效 、 
更 强大 ， 而 且 可 以 让 他 们 的 组 织 中 更 多 的 人 进行 使 用 。 

当 他 们 将 Hadoop 和 Hive 加 入 到 他 们 现 有 的 数据 架构 中 后 ， 他 们 还 
想 让 从 Hive 查 询 的 结果 系统 化 、 可 以 进行 共享 并 可 以 集成 到 其 他 数据 
存储 、 电 子 表格 、BI 工 具 和 报告 系统 中 。 

等 别 地 ， 这 些 公 司 有 如 下 要 求 。 

@ 获取 数据 ， 检 测 原始 格式 ， 并 创建 元 数据 的 便捷 方法 。 

@ 在 一 个 集成 的 、 多 用 户 环境 下 协同 工作 。 

@ 探索 和 迭代 分 析 数 据 。 

@ 可 保存 和 重用 路 径 。 


@ 对 数据 、 表 和 列 的 安全 的 细 粒 度 控 制 ， 并 区 分 访问 不 同 的 业务 
线 数据 。 


@ 业务 用 户 不 需要 SQL 技能 就 可 访问 并 进行 分 析 。 
本 @ 调度 查询 ， 并 将 生成 的 结果 目 动 导出 到 非 Hadoop 的 数据 存储 


与 Microsoft Excel、Tableau、Spotfire 以 及 其 他 电子 表格 、 报 千 
系统 、 仪 表 板 、BI 工 具 进 行 集成 。 


@ 可 以 管理 基于 Hive 的 功能 ， 包 括 进 行 查询 、 结 果 输 出 、 可 视 化 
以 及 Hive 的 标准 组 件 ， 如 UDF 和 SerDe。 


23.6.2 ”Customer Trenches 的 用 例 
1.， Customer trenches #1: 为 Hive 优 化 存储 格式 


许多 Hive 用 户 反 复 反 馈 的 一 个 问题 束 古 Hive 中 的 数据 使 用 什么 存 
储 格式 进行 存储 以 及 如 何 使 用 这 些 数据 。 


Hive 本 身 内 置 可 以 支持 许多 种 数据 格式 ， 但 有 一 些 自 定义 的 专 有 
格式 就 不 支持 了 。 有 一 些 数 据 格式 支持 为 用 户 解 决 如 何 从 一 个 行 数据 
中 提取 出 独立 的 部 份 。 有 时 候 ， 写 一 个 标准 的 HiveSerDe 来 支持 一 个 自 
定义 的 数据 格式 是 最 优 方法 。 而 在 其 他 情况 下 ， 使 用 现 有 的 Hive 分 隔 
符 和 Hive UDF 可 能 是 最 方便 的 解决 方案 。 我 们 合作 地 使 用 Hadoop 来 提 
供 个 性 化 服务 ， 并 使 用 Hive 对 多 个 输入 数据 流 进 行 分 析 。 公 司 的 一 个 
有 代表 性 的 案例 就 是 : 他们 收 到 的 是 来 自 他 们 的 一 个 日 志 数 据 提供 者 
的 格式 ， 而 这 种 格式 不 能 轻易 地 分 裂 成 列 。 他 们 试图 想 出 一 个 办 法 使 
得 无 需 编写 一 个 自 定义 SerDe 就 可 以 解析 数据 并 运行 查询 。 


数据 包含 顶层 的 头 信息 和 底层 的 多 个 详细 信息 。 详细 信息 部 分 是 
一 个 藤 套 在 顶级 对 象 中 的 JSON 对 和 象 ， 类 似 于 如 下 这 样 的 数据 集 : 


{ "top" 9 [ 
{"table":"user", 
"data":{ 
"name":"John Doe", "userid":"2036586","age":"74","code":"297994", "status":1}}, 
{"table":"user", 
"data":{ 
"name":"Mary Ann", "userid":"14294734","age":"64","code":"142798", 
"status":1}}, 
{"table":"user", 
"data":{ 


"name":"Carl Smith", "userid":"13998600", "age":"36","code":"32866", 
"status":1}}, 
{"table":"user", 
"data":{ 
"name":"Anil Kumar":"2614012","age":"69","code":"208672", "status":1}}, 
{"table":"user", 
"data":{ 


"name":"Kim Lee", "userid":"10471190", "age":"53","code":"79365", "status":1}} 
]} 


与 客户 交谈 后 ， 我 们 意识 到 他 们 感 兴趣 的 是 上 面 的 示例 中 “data” 标 
签 下 的 详细 字段 信息 。 


为 帮助 他 们 解决 这 个 问题 ， 我 们 使 用 Hive 中 目 带 的 函数 
get_json_object， 使 用 方法 如 下 。 


一 步 古 创建 一 个 表 ， 其 使 用 的 是 样本 数据 : 


CREATE TABLE User (line string) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\n' 


STORED AS TEXTFILE 
LOCATION ‘hdfs://hostname/user/uname/tablefolder/’ 


然后 使 用 Hive 等 功能 得 到 JSON 对 象 ， 我 们 可 以 得 到 的 航 套 JSON 元 
素 并 使 用 UDF 对 其 进行 解析 : 


SELECT get_json object(col0, '$.name') as name, get json object(col0, '$.userid') as 

uid, 

get_json object(col0, '$.age') as age, get json object(col0, '$.code') as code, 
get_json_object(col0, '$.status') as status 


FROM 
(SELECT get_json_ object(user.line, '$.data') as col0 
FROM User 
WHERE get_json_object(user.line, '$.data') is not null) temp; 


查询 详细 信息 如 下 。 


a， 在 内 部 查询 中 提取 以 ‘data’ 作 为 标识 向 套 的 JSON 对 象 ， 并 将 其 
取 别 名 为 col0 。 


b. 然后 将 JSON 对 象 分 成 适当 的 列 并 使 用 它们 的 标记 名 作为 对 应 
的 列 别 名 。 


查询 结果 如 下 ， 这 是 一 个 CSV 文 件 ， 其 中 第 一 行 是 字段 名 称 ， 


"name", "uid"™, "age", "code", "status" 
"John Doe","2036586", "74", "297994", "1" 
"Mary Ann","14294734", "64","142798", "1" 


"Carl Smith", "13998600", "36", "32866", "4" 
"Kim Lee", "10471190", "53", "79365", nn" 


2 ，Customer trenches #2: 分 区 和 性 能 


使 用 分 区 来 保存 通过 数据 流 或 定期 添加 到 Hadoop 的 数据 是 一 个 最 
近 我 们 看 到 多 次 的 用 例 ， 而 这 是 一 个 利用 Hadoop 和 Hive 来 分 析 各 种 快 
速 添 加 进来 的 数据 集 强 大 而 非常 有 价值 的 方式 。Web、 应 用 、 产 品 和 传 
i 只 是 Hive 用 户 经 常 需 要 ad-hoc、 重 复 执 行 和 预定 查 
询 的 数据 。 


Hive 分 区 在 正确 设置 后 ， 可 以 允许 用 户 查 询 仅 在 特定 的 分 区 下 的 
数据 ， 从 而 将 极 大 地 提高 性 能 。 当 为 表 建 立 分 区 时 ， 文 件 应 该 位 于 类 
似 如 下 例子 中 给 出 的 目录 下 : 


hdfs://user/uname/folder/"yr"=2012/"mon"=01/"day"=01/file1i, file2, file3 
/"yr"=2012/"mon"=01/"day"=02/file4, files 


/"yr"=2012/"mon"=05/"day"=30/file100, file101 


通过 上 未 目 录 结 构 ， 我 们 可 以 看 到 表 可 以 设置 年 、 月 和 日 来 设置 
分 区 。 查 询 的 时 候 可 以 使 用 yr、mon、 和 day 作 为 过 滤 字 段 ， 同 时 也 可 
以 限制 在 特定 的 查询 时 间 访 问 特 定 的 值 下 面 的 数据 。 我 们 可 以 观察 下 
1 分 区 的 文件 夹 名 称 都 是 如 yr=、mon= 和 day= 这 样 
JJ 人 TAU” 


在 和 一 个 高 科技 公司 合作 时 ， 我 们 发 现 他 们 的 文件 夹 没 有 这 个 明 
确 的 分 区 命名 ， 而 且 他 们 不 能 改变 他 们 现 有 的 目录 结构 。 但 他 们 仍然 
希望 受 鼻 于 分 区 。 他 们 的 样品 目录 结构 如 下 所 示 : 


hdfs://user/uname/folder/2012/01/01/filei1i, file2, file3 
/2012/01/02/file4, files 


在 这 种 情况 下 ， 我 们 仍然 可 以 通过 使 用 ALTER table 语 句 显 式 地 添 
加 分 区 并 为 表 添 加 绝对 路 径 位 置 。 一 个 简单 的 外 部 脚本 可 以 读 取 目录 
并 为 ALTER TABLE 语 句 中 添加 yr=、mon=、day= 这 样 的 信息 并 提供 对 
应 的 有 效 的 具体 的 文件 夹 名 称 (如 yr=2012， mon=01，.…)。 脚 本 的 输出 
具体 的 目录 结构 的 Hive SQL 语句 ， 而 且 保存 在 一 个 简单 的 


ALTER TABLE tablename 
ADD PARTITION (yr=2012, mon=01, day=01) Location '/user/uname/folder/ 2012/01/01/'; 


ALTER TABLE tablename 
ADD PARTITION (yr=2012, mon=01, day=02) location '/user/uname/folder/ 2012/01/02/'，; 


ALTER TABLE tablename 
ADD PARTITION (yr=2012，mon=05，day=30) location '/user/uname/folder/ 2012/05/30/ ' 


当 在 Hive 中 执行 这 些 语句 时 ， 指 定 的 目录 下 的 数据 就 会 出 现在 使 
用 ALTER TABLE 语 名 创建 并 定义 的 逻辑 分 区 中 。 


人 
pap be 
ke 提示 

用 户 应 该 确保 表 是 通过 PARTITIONED BY 语句 为 年 、 月 和 日 
创建 分 区 字段 的 。 


3. Customer trenches #3: 使 用 Regex、Lateral View Explode、Ngram 
和 其 他 一 些 UDF 进行 文本 分 析 

许多 与 我 们 合作 的 公司 都 有 文本 分 析 的 场景 ， 包 括 位 香 到 复杂 的 
情况 。 理 解 和 使 用 Hive regex 函 数 、 苑 式 和 其 他 字符 串 处 理 函 数 可 以 解 
决 大 量 的 此 类 使 用 场景 。 


一 个 与 我 们 合作 的 大 型 制造 业 客 尸 有 很 多 机 鼠 生 成 压缩 文本 数据 
存储 到 了 Hadoop 中 。 这 个 数据 的 格式 如 下 。 


@ 每 个 文件 中 具有 多 行 数据 ， 而 一 个 按照 时 间 分 区 的 数据 桶 内 包 
含有 许多 这 样 的 文件 。 


@ 每 一 行 数据 都 有 许多 按照 /r/n ( 回 车 和 换行 ) 进行 划分 的 列 。 
@ 每 列 数据 的 形式 是 一 个 “名 称 : 值 ” 对 。 

用 例 的 要 求 如 下 。 

@ 读 取 每 一 行 数据 并 将 每 列 转换 成 “名 称 - 值 ” 对 。 


@ 在 特定 的 列 中 ， 进 行 词 频 统计 和 单词 模式 分 析 来 分 析 天 键 词 和 
等 定 的 消 轧 内 容 。 


下 面 的 示例 展示 了 这 个 客户 的 样本 数据 资料 (其 中 省 略 了 一 些 文 
本 内 容 ) : 


name:Mercury\r\ndescription:Mercury is the god of commerce, ...\r\ntype: Rocky 
planet 
:Venus\r\ndescription:Venus is the goddess of love...\r\ntype:Rocky planet 
:Earch\r\ndescription:Earth is the only planet ...\r\ntype:Rocky planet 
:Mars\r\ndescription: Mars is the god of War...\r\ntype:Rocky planet 


:Jupiter\r\ndescription:Jupiter is the King of the Gods...\r\ntype: Gas planet 
:Saturn\r\ndescription:Saturn is the god of agriculture...\r\ntype: Gas planet 
:Uranus\r\ndescription:Uranus is the God of the Heavens...\r\ntype: Gas planet 
:Neptune\r\ndescription:Neptune was the god of the Sea...\r\ntype:Gas planet 


数据 具有 如 下 几 方 面 特点 。 
@ 行星 的 名 子 和 他 们 的 包含 类 型 的 插 述 信息 。 
@ 每 一 行 的 数据 是 由 一 个 分 阳 符 分 隔 。 


_ 旬 在 每 一 行 有 3 个 部 分 ， 包 括 “ 名 称 *”、“ 描 述 " 和 “类 型 "*， 按 照 /7 /n 
二 


@ 其 中 “ 摘 述 "是 一 个 大 的 文本 内 容 。 
第 一 步 是 使 用 此 示例 数据 创建 初始 表 : 


CREATE TABLE planets (col0 string) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\n' 


STORED AS TEXTFILE 
LOCATION 'hdfs://hostname/user/uname/planets/' 


接 下 来 ， 我 们 运行 一 系列 的 查询 ， 从 一 个 使 用 了 函数 的 简单 的 查 
询 开 始 。 需 要 注意 的 是 用 几 种 不 同 的 方式 编写 的 查询 来 满足 相同 的 需 
求 。 如 下 查询 语句 的 目的 是 演示 Hive 对 文本 解析 一 些 关键 功能 。 


下 完 ， 我 们 使 用 一 个 split 久 数 来 将 数据 划分 的 不 同 列 保存 到 数组 


SELECT split(col0, '(\\\\r\\\\n)') AS splits FROM planets,; 


接 下 来 ， 我 们 LATERAL VIEW EXPLODE 范 数 来 将 划分 (也 就 是 
这 个 数组 ) 进行 展开 。 这 个 查询 的 结果 将 是 每 行 都 是 一 个 “名 称 - 
值 ? 对 。 我 们 只 选择 那些 以 'desc* 开 头 的 行 。LTRIM 这 个 函数 是 用 来 去 
除 左 端的 空白 字符 的 。 


SELECT ltrim(splits) AS pairs FROM planets 
LATERAL VIEW EXPLODE(split(col0, '(\\\\r\\\\n)')) col0 AS splits 


WHERE ltrim(splits) LIKE 'desc%' 

现在 我 们 摘 述 的 信息 转 换 成 了 “和 名称- 值 ? 对 ， 并 选择 有 值 的 数据 。 
"我们 使 用 根据 “: “进行 分 割 并 选择 “ 值 ? 那 
首 p 分 


SELECT (split(pairs, ':'))[1] AS txtval FROM ( 
SELECT ltrim(splits) AS pairs FROM planets 


LATERAL VIEW EXPLODE(split(col0, '(\\\\r\\\\n)')) col0 AS splits 
WHERE ltrim(splits) LIKE 'desc%')tmp1， 


需要 注意 的 是 对 于 内 部 查询 我 们 使 用 了 临时 标识 符 mp1。 当 用 户 
使 用 子 查询 的 输出 作为 外 层 查 询 的 输入 时 ， 使 用 别名 是 必须 的 。 步 又 3 
处 理 后 ， 我 们 获取 到 “描述 "中 每 一 行 的 “ 值 ”部 分 的 数据 。 


在 授 下 来 的 步 又 中 ， 我 们 使 用 ngrams 函 数 来 显示 行星 描述 名 称 前 
10 双 字母 组 名 单词 。 用 户 也 可 以 使 用 如 context_ngram 、find_in_set 、 
regex_replace 和 其 他 各 种 各 样 的 基于 文本 分 析 的 函数 : 


SELECT ngrams(sentences(lower(txtval)), 2, 10) AS bigrams FROM ( 
SELECT (split(pairs, ':'))[1] AS txtval FROM ( 

SELECT ltrim(splits) AS pairs FROM planets 

LATERAL VIEW EXPLODE(split(col0, '(\\\\r\\\\n)')) col0 AS splits 


WHERE ltrim(splits) LIKE 'desc%') tmp1) tmp2; 


需要 注意 的 是 ， 我 们 已 经 使 用 了 像 lower 这 样 的 函数 来 将 大 写字 母 
全 部 转换 成 小 写 ， 以 及 使 用 sentences 函 数 将 文本 中 内 容 分 割 成 单词 。 


关于 Hive 中 文本 分 析 函 数 的 更 多 信息 ， 可 以 参考 第 3 章 中 列举 的 画 


生产 环境 下 的 Apache Hive: 快速 增长 的 需求 和 能 


Hive 会 保持 继续 成 长 ， 正 如 前 面 所 定义 的 使 用 场景 所 展示 的 。 在 
不 同行 业 和 不 同 规模 的 公司 都 将 在 Hadoop 环 境 中 使 用 Hive 而 受益 无 
穷 。 一 个 强大 和 积极 的 贡献 者 社区 ， 以 及 由 Hadoop 领 先 供应 商 提供 的 
重大 的 研发 投资 ， 都 将 确保 Hive 已 经 是 Hadoop 之 上 的 基于 SQL 的 标准 
人 中 基于 SQL 处 理 
示 准 o 


随 着 公司 投入 大 量 资源 和 时 间 来 理解 和 构建 Hive 资 源 ， 在 很 多 情 
况 下 ， 我 们 发 现 他 们 寻找 额外 的 能 力 ， 使 他 们 能 够 建立 在 他 们 的 初始 


使 用 Hive 的 基础 之 上 ， 并 达到 更 快 的 扩展 、 在 他 们 的 组 织 内 更 广泛 的 
应 用 。 从 处 理 这 些 客户 希望 Hive 进 化 到 到 下 一 个 级 别 的 需求 中 ， 有 一 
套 共 同 的 需求 已 经 出 现 了 。 这 些 需求 包括 如 下 几 方 面 。 


@ 多 用 户 环境 协作 。Hadoop 提 供 了 相对 于 传统 的 RDBMS 的 新 的 分 
析 类 别 ， 在 计算 能 力 和 成 本 上 都 具有 优势 。 使 用 Hadoop， 组 织 机 构 可 
以 将 数据 和 人 进行 分 离 ， 可 以 在 他 们 可 获取 的 每 个 字 节 的 数据 上 执行 
分 析 ， 这 些 都 通过 一 种 方式 ， 可 以 使 他 们 能 够 与 其 他 个 体 、 团 队 、 组 
织 和 系统 分 享 他 们 的 查询 结果 和 见解 。 这 个 模型 意味 着 为 用 户 提 供 深 
入 理解 需要 合作 发 现 这 些 不 同 的 数据 集 ， 再 分 享 见解 和 整个 组 织 中 基 
于 Hive 分 析 的 可 用 性 。 


@ 增强 生产 力 。Hive 的 当前 的 实现 提供 了 一 个 在 Hadoop 之 上 的 系 
列 批 处 理 环 境 。 这 意味 着 ， 一 旦 用 户 向 Hadoop 集 群 中 提交 一 个 查询 作 
业 ， 他 们 必须 等 待 查询 完成 之 后 才能 向 集群 提交 并 执行 男 一 个 查询 。 
这 可 以 限制 用 户 的 生产 力 。 企 业 采 用 Hive 的 一 个 主要 原因 是 ， 它 使 他 
们 的 SQL 技术 数据 专业 人 员 可 以 更 快 和 更 容易 使 用 Hadoop。 这 些 用 户 
通 淀 熟悉 SQL 编 辑 工 具 和 BI 产品 。 他们 正在 寻找 类 似 的 生产 力 环境 例 
如 增强 语法 高 之 、 代 码 目 动 完 成 。 


@ Hive 资 产 管理 。 老 肯 锡 近期 的 一 份 报告 通过 他 们 的 数据 预测 了 
缺乏 熟练 的 工人 ， 可 以 显著 降低 使 组 织 牟 利 。 像 Hive 这 样 的 技术 通过 
允许 人 们 在 Hadoop 可 以 用 SQL 技能 进行 分 析 来 解决 技能 短缺 问题 。 然 
而 ， 组 织 意 识 到 仅仅 让 他 们 的 用 户 使 用 Hive 是 不 够 的 。 他 们 需要 能 够 
管理 Hive 资 产 ， 如 查询 语句 (包含 历史 操作 和 版 本 信息 ) 、 众 多 的 
UDF、SerDe 等 ， 可 以 在 以 后 进行 分 享 和 重用 。 组 织 想 要 构建 这 个 Hive 
资产 的 知识 存储 库 ， 而 且 用 户 可 以 很 容易 搜索 到 。 


@ 为 先进 的 分 析 技 术 对 Hive 进 行 扩展 。 许 多 公司 正在 寻找 在 
Hadoop 中 重建 他 们 在 传统 的 RDBMS 中 分 析 的 系统 。 虽 然 并 不 是 SQL 环 
境 的 所 有 功能 都 很 容易 转化 为 Hive 函 数 ， 其 中 一 些 是 因为 数据 存储 的 
固有 局 限 性 ， 有 一 些 高 级 分 析 功 能 〈 像 RANK， 等 等 ) ， 这 些 Hadoop 
征 可 以 进行 处 理 的 。 此 外 ， 组 织 使 用 传统 工具 如 SAS 和 SPSS 伦 了 巨大 
的 资源 和 时 间 在 构建 分 析 模 型 上 ， 并 希望 能 够 在 Hadoop 通 过 Hive 但 询 
更 好 地 使 用 这 些 模型 。 


@ SQL 技 能 外 扩展 Hive。 因 为 Hadoop 在 组 织 中 积蓄 了 大 量 优势 ， 
并 成 为 一 个 IT 基 础 设施 之 上 的 关键 的 数据 处 理 和 分 析 架 构 ， 这 在 具有 


不 同 的 技能 和 能 力 的 用 户 当中 很 流行 。 尽 管 Hive 很 容易 适应 具有 SQL 技 
能 的 用 户 ， 其 他 的 全 得 SQL 并 不 多 的 用 户 也 在 寻求 可 以 在 基于 Hadoop 
的 Hive 上 像 在 传统 的 BI 工 具 中 通过 拖 拖 搜 搜 残 可 以 执行 分 析 的 功能 。 
能 够 在 Hive 之 上 文 持 区 互 式 表 单 ， 能 够 通过 简单 的 基于 Web 的 形式 提示 
用 户 提 供 的 列 值 是 一 种 毅 见 的 功能 。 


@ 数据 探索 能 力 。 传 统 的 数据 库 拷 术 提供 数据 浏览 功能 。 例 如 ， 
一 个 用 户 可 以 查看 一 个 整数 列 的 最 小 值 ， 最 大 值 。 此 外 ， 用 户 还 可 以 
通过 可 视 化 的 方式 查看 这 些 列 ， 在 他 们 执行 分 析 数 据 之 前 理解 数据 分 
布 。 因 为 Hadoop 存 储 了 数 百 TB 的 数据 ， 并 且 通 音 是 PB 级 别 的 ， 对 于 特 
定 的 使 用 场景 ， 顾 客 需要 类 似 的 功能 。 


@ 调度 和 操作 Hive 查 询 。 当 公司 使 用 具有 Hadoop 的 Hive 发 现 了 一 
些 深刻 见解 时 ， 他 们 也 在 寻求 实施 这 些 见解 和 安排 在 一 个 正则 区 间 运 
行 这 些 查 询 。 虽 然 目前 已 经 有 了 可 用 的 开源 替代 方案 ， 但 当 公 司 也 想 
管理 Hive 查 询 的 输出 时 就 会 功 亏 一 筑 。 例 如 ， 将 结果 集 转 移 到 一 个 传 
统 的 RDBMS 系 统 或 BI 堆栈 。 管 理 特定 的 用 例 ， 公 司 通 常 必 须 手 工 串 起 
各 种 不 同 的 开源 工具 或 依靠 可 怜 的 JDBC 连 接 器 进行 执行 。 

关于 Karmasphere。Karmasphere 是 一 家 软件 公司 ， 位 于 加 州 侍 
合 ， 专 注 于 帮助 分 析 师 团队 和 业务 用 户 使 用 Hadoop 的 大 数据 分 析 能 
力 。 他 们 的 旗舰 产品 ，Karmasphere 2.0， 是 基于 Apahce Hive 的 ， 并 扩 
展 实现 了 多 用 户 图 形 化 工作 空间 。 

a. 重用 标准 的 Hive 表 、SerDe 和 UDF 。 


和 为 分 析 师 团队 和 业务 用 户 提供 社交 化 的 、 基 于 项 目的 大 数据 分 
区 


c， 可 以 方便 和 其 他 集群 进行 数据 整合 。 

d.， 基于 启发 式 的 识别 和 提供 多 种 流行 的 数据 存储 格式 来 创建 表 。 
e， 可 视 化 的 和 送 代 式 的 数据 探索 和 分 析 。 

f， 图 形 化 的 对 基于 Hive 的 数据 集 进 行 分 析 探 索 。 

g. 可 以 共享 和 调度 查询 以 及 结果 ， 并 提供 可 视 化 操作 和 展示 。 


h. 和 传统 表格 、 报 表 、 仪 表 如 、BI 工 具 很 容易 进行 集成 整合 。 


图 23-4 展 示 了 Karmasphere 2.0 的 基于 Hive 的 大 数据 分 析 环 境 的 操作 
界面 截图 。 
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图 23-4 ”Karmasphere 2.0 的 屏幕 截图 


@ Hive 特 性 调查 。 对 于 这 些 需 求 我 们 期 望 能 得 到 反馈 并 最 终 能 在 
快速 发 展 的 Hive 社 区 中 进行 分 享 。 如 果 你 有 兴趣 看 看 别人 的 想法 的 
话 ， 那 么 请 访问 如 下 链接 : http://karmasphere.com/hive-features- 
survey.html ° 


[1]http://www.r-bloggers.com/taking-r-to-the-limit-large-datasets-predictive- 
modeling-with-pmml-and-adapa/ ° 


[2] 关 于 广义 相 加 模型 (GAM) 的 更 多 细 和 信息 请 参考 Hastie 等 人 在 
2001 年 发 布 的 用 于 分 析 的 GAM 实 现 的 R 包 ， 这 个 神奇 的 包 可 以 通过 如 


下 链接 进行 下 载 : http://cran.r-project.org/。 


NY YY 
亚马逊 弹性 MapReduce (EMR) 
亚马逊 的 EMR 是 基于 亚马逊 EC2 (弹性 计算 云 ) 的 托管 Hadoop 服 


以 


Avro 


Avro 是 一 个 新 的 序列 化 格式 ， 其 用 于 解决 一 些 其 他 序列 化 格式 注 
变 过 程 中 发 现 的 种 见 问 题 。 使 用 它 的 一 些 好 处 是 其 具有 丰富 的 数据 结 
构 、 快 速 的 二 进 制 格式 ， 文 持 远 程 过 程 调 用 ， 而 且 内 置 模式 演化 。 


Bash 


Bash 是 Linux 和 Mac OS X 系 统 的 默认 命令 行 交互 shell 。 
S3 中 的 数据 桶 


数据 桶 钙 使 用 S3 时 用 户 可 以 具有 和 管理 的 最 顶层 容器 的 术语 。 一 
个 用 户 可 以 具有 很 多 的 数据 桶 ， 其 类 似 于 物理 硬盘 的 root 根 目录 。 


命令 行 交互 界面 (CLI1) 


命令 行 交 互 界面 (也 就 是 CLI) 是 指 可 以 执行 Hive 语 句 “脚本 ”并 和 
用 户 输 入 信息 进行 交互 的 命令 行 界 面 。 

数据 仓库 

数据 仓库 指 用 于 报告 、 趋 势 等 分 析 的 一 组 结构 化 数据 组 成 的 库 。 
数据 仓库 可 以 提供 数据 批 处 理 ， 是 离线 的 ， 而 不 是 像 电 子 商 务 这 样 提 
供 实 时 啊 应 能 力 的 系统 。 


Derby 


Derby 是 一 个 轻 量 级 的 SQL 数据 库 ， 其 可 以 嵌入 到 Java 应 用 程序 
中 。 其 运行 在 相同 的 进程 中 并 将 数据 存储 到 本 地 文件 中 。Hive 元 数据 
存储 中 默认 使 用 Derby 作 为 元 数据 库 。 可 以 访问 
http://db.apache.org/derby/ 获 得 更 多 信息 。 


动态 分 区 


动态 分 区 是 HiveQL 对 于 SQL 一 个 扩展 。 使 用 动态 分 区 可 以 允许 用 
户 将 得 询 结果 插入 到 表 分 区 中 ， 而 分 区 字段 是 一 个 或 者 多 个 不 同 的 分 
区 列 值 ， 具 体 的 分 区 值 将 由 查询 结果 动态 地 生成 。 使 用 动态 分 区 可 以 
非常 方便 地 将 查询 结 采 写 入 到 新 表 的 大 量 分 区 中 ， 而 无 需 为 每 个 分 区 
列 值 都 写 一 个 单独 的 查询 语句 。 


Ephemeral Storage 临时 性 存储 


对 于 虚拟 亚 号 进 EC2 集 群 的 季 点 ， 节 点 上 的 人 硬盘 存储 空间 整 被 称 
为 临时 性 存储 。 这 是 因为 和 普通 的 物理 存储 集群 不 同 ， 当 这 类 集群 天 
闭 后 这 些 存 储 数据 整 会 被 清除 挥 。 因此， 当 使 用 EC2 集 群 ， 例 如 亚 马 
还 弹性 MapReduce 集 群 时 ， 要 注意 将 重要 的 数据 备份 到 S3 上 。 


外 部 表 


外 部 表 指 使 用 不 在 Hive 探 制 范 围 内 的 存储 路 径 和 内 容 的 表 。 使 用 
外 部 表 会 比较 方便 将 数据 和 其 他 工具 共 诗 ， 但 是 需要 其 他 的 处 理 过 程 
来 管理 数据 的 生命 周期 。 也 就 古 说 ， 当 创建 了 一 个 外 部 表 时 ，Hive 并 
没有 创建 这 个 外 部 存储 路 径 (对 于 分 区 表 的 话 还 应 包括 分 区 路 径 文 件 
夹 ; ， 同 样 地 ， 当 删除 外 部 表 后 ， 并 不 会 删除 外 部 路 径 下 的 数据 。 


Hadoop 分 布 式 文件 系统 (HDFS) 


Hadoop 分 布 式 文件 系统 (HDFS) 是 一 个 用 于 数据 存储 的 分 布 式 
的 、 弹 性 的 文件 系统 。HDFS 被 优化 为 可 以 快速 扫描 硬盘 上 大 的 连续 
的 数据 块 。 集 群 中 的 分 布 式 提供 了 数据 存储 的 横 回 扩展 。HDFS 文 件 
的 数据 块 在 集群 内 会 被 复制 成 多 份 (默认 情况 下 是 3 份 ) 来 防止 当 磁 
盘 坏 挥 或 者 整个 服务 絮 坏 掉 时 的 数据 丢失 。 


HBase 


HBase 是 使 用 HDFS 作 为 持久 化 存储 表 数 据 的 NoSQL 数 据 库 。 
HBase 是 列 式 的 键 - 值 对 存储 的 设计 ， 用 于 提供 传统 的 快速 响应 查询 和 
行 级 别 的 数据 更 新 和 插入 。 列 式 存储 意味 着 磁盘 上 的 数据 存储 是 按照 
多 组 列 够 成 的 ， 也 束 是 列 族 ， 而 不 是 按照 行 来 组 织 的 。 这 个 特性 使 得 
可 以 快速 查询 列 的 子 集 数 据 。 键 - 值 对 存储 意味 着 行 是 按照 一 个 唯一 键 
和 整 行 所 对 应 的 值 来 获取 的 。HBase 并 没有 提供 一 种 SQL 方言 ， 但 是 
可 以 使 用 Hive 来 查询 HBase 表 。 


Hive 
Hive 是 一 个 数 奏 个 庆 工 具 。Hive 对 存储 在 EDFS、 瓦 Base 表 或 者 其 


他 存储 上 的 数据 进行 了 抽象 ， 形 成 了 表 。Hive 谷 询 语 言 (HQL) 是 红 
构 化 前 询 语 育 (SQL) 的 方言 。 


Hive 查 询 语言 (HQL) 


Hive 查 询 语言 (HQL) 是 Hive 自 己 的 结构 化 查询 语言 (SQL) 的 
一 种 方言 。 通 常 缩写 为 HiveQL 或 者 HQL 。 


输入 文件 格式 (Input Format) 


输入 文件 格式 决定 了 输入 数据 流 (通常 是 来 自 于 文件 的 是 如 何 
分 割 成 记录 的 。SerDe 用 于 将 记录 分 割 成 列 。 用 户 目 定义 的 输入 文件 格 
式 可 以 在 创建 表 时 通过 INPUTFORMAT 语 句 来 进行 指定 。 默 认 的 输入 
文件 格式 也 就 是 默认 的 STORED AS TEXTFILE 语 句 实际 是 就 是 
org.apache.hadoop.mapreduce.lib.input.TextmputFormat 的 简写 形式 。 输 


出 文件 格式 (Output Format) 是 类 似 的 。 
JDBC 


Java 数 据 库 连接 API (JDBC) 提供 了 使 用 Java 代 码 访问 包括 Hive 
的 SQL 系 统 的 接口 。 


Job 任 务 


在 Hadoop 上 下 文中 ， 一 个 Job 就 是 一 个 提交 给 MapReduce 的 独立 的 
工作 流 。 其 中 包含 有 需要 执行 一 个 完整 的 计算 ， 从 读 取 输入 到 生成 输 


出 的 完整 过 程 。MapReduce 框架 中 的 JobTracker 会 将 其 分 解 成 一 个 或 
者 多 个 可 以 在 集群 中 分 布 式 执行 的 task 任 务 。 


JobTracker 


JobTracker 是 使 用 Hadoop 的 MapReduce 的 所 有 任务 (Job) 的 最 顶 
层 控 制 器 。JobTracker 接 收 提 交 上 来 的 Job， 决 定 执行 什么 task 以 及 分 发 
到 哪里 去 执行 ， 监 控 他 们 的 执行 过 程 ， 并 且 在 需要 的 时 候 重 跑 失 败 的 
task， 其 还 提供 了 一 个 网 页 控制 台 界 面 用 户 监 控 Job 和 task 的 执行 过 
程 ， 查 看 执行 日 志 ， 等 等 。 


任务 流 (J ob Flow) 

任务 流 是 亚 马 码 形 几 MapReduce (EMR) 中 使 用 到 的 一 个 术语 ， 
其 表示 在 一 个 为 特定 目的 而 创建 的 临时 EMR 集 群 上 执行 的 一 系列 连续 
的 job 任务 。 

JSON 


JSON 即 JavaScript Object Natation， 它 是 一 种 轻 量 级 的 数据 交换 
， 非常 适合 于 服务 器 与 JavaScript 的 交互 ， 因 此 常用 于 网 络 应 用 
辣 关 O 


Map 阶 段 

Map 阶 段 症 指 MapReduce 人 处 理 过 程 中 进行 Map 操 作 的 那个 阶段 ， 在 
这 个 阶段 输入 的 键 - 值 对 集合 会 转换 成 一 个 新 的 键 - 值 对 集 。 对 于 每 个 
输入 键 - 值 对 ， 可 以 产生 零 到 多 个 输出 键 - 值 对 。 输 入 和 输出 键 以 及 输 
入 和 输出 值 可 能 是 完全 不 同 的 。 

MapR 


MapR 是 一 个 商业 版 本 的 Hadoop，MapR 允 件 系 统 (MapR-FS) 代 
蔡 了 HDFS。MapR-FS 是 一 个 高 性 能 的 分 布 式 文件 系统 。 


MapReduce 


MapReduce 是 Google 提 出 的 一 个 软件 染 构 ， 用 于 大 规模 数据 集 的 
并 行 运算 。 其 将 计算 过 程 分 为 两 个 过 程 映射 (Map) 过 程 和 化 简 


(Reduce) 过 程 ，map 过 程 用 来 把 一 组 键 - 值 对 映射 成 一 组 新 的 键 - 值 
对 ， 并 通过 指定 并 发 的 Reduce 过 程 ， 来 保证 所 有 了 映射 的 键 - 值 对 中 的 每 
一 个 共享 相同 的 键 组 。 MapReduce 通 过 把 对 数据 集 的 大 规模 操作 分 发 
给 网 络 上 的 每 个 节点 实现 可 靠 性 。 每 个 节点 会 周期 性 的 把 完成 的 工作 
和 状态 的 更 新 报告 回来 。 如 琳 一 个 市 太保 持 沉默 超过 一 个 预 设 的 时 间 
间隔 ， 主 方 点 〈 类 同 Google 档 案 系 统 中 的 主 服 务 器 ) 记录 下 这 个 节点 
状态 为 死亡 ， 并 把 分 配给 这 个 节点 的 数据 发 到 别 的 和 点 。 每 个 操作 使 
用 命名 文件 的 不 可 分 割 操作 以 确保 不 会 发 生 并 行 线程 间 的 冲突 。 当 文 
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元 数据 存储 (Metastore) 


元 数据 存储 是 指 存储 如 表 结 构 信息 这 样 的 “元 数据 ”信息 的 服务 。 
Hive 需 要 使 用 元 数据 存储 服务 才能 够 使 用 。 默 认 情 况 下 ，Hive 使 用 的 
元 数据 存储 是 内 置 的 Derby SQL Server 服 务 ， 其 提供 了 有 限 的 ， 单 进程 
的 SQL 文 择 。 生 产 环境 下 需要 使 用 像 MySQL 这 样 的 提供 全 功能 的 关系 
型 数据 库 作 为 元 数据 存储 。 


NoSQL 


NoSQL 指 的 是 非 关 系 型 数据 库 ， 不 文 持 关 系 型 模型 的 数据 管理 、 
结构 化 查询 语言 、 以 及 传统 的 update 操 作 。 这 些 数据 存储 将 这 些 功 能 
人 


ODBC 
ODBC 全 称 是 开放 数据 库 连 接 API， 其 为 其 他 应 用 程序 提供 了 访问 


SQL 系统 的 接口 ， 当 然 包 括 访问 Hive 的 接口 。 通 过 来 说 Java 应 用 程序 
是 使 用 JDBC API 进 行 连 接 的 。 


输出 文件 格式 (Output Format) 


输出 文件 格式 (OutputFormat) 决定 了 记录 是 如 何 写 入 到 输出 流 
中 的 ， 通 常 是 如 何 写 入 到 文件 中 的 。 一 个 SerDe 处 理 了 如 何 将 每 行 记录 
序列 化 成 合适 的 字 节 流 的 问题 。 可 以 在 创建 表 语句 中 通过 
OUTPUTFORMAT 语 句 执 行 用 户 目 定义 的 文件 输出 格式 。 默 认 的 输出 


格式 是 STORED AS TEXTFILE， 其 是 org 
.apache.hadoop.hive.gql.io.HivelgnoreKeyText 
OutputFormat 的 简化 形式 。 相 天 的 可 查看 下 输入 文件 格式 


(InputFormat) 
分 区 


分 区 是 表 数 据 的 一 个 子 集 ， 同 一 个 分 区 下 的 分 区 字段 内 容 是 相同 
的 。 在 Hive 中 ， 和 大 多 数 文 持 数据 分 区 的 数据 库 一 样 ， 每 个 分 区 都 对 
应 着 不 同 的 物理 存储 路 径 〈 在 Hive 中 就 是 表 路 径 下 的 子 文件 夹 ) 。 使 
用 分 区 有 几 个 好 处 。 分 区 字段 的 值 在 分 区 数据 中 其 实 是 没有 的 ， 这 样 
就 可 以 节约 存储 空间 ， 同 时 对 于 使 用 WHERE 语句 的 碍 询 来 说 通过 限 
制 特 定 的 分 区 字段 可 以 城 少 输 入 的 数据 量 而 提高 执行 效率 ， 因 为 这 样 
可 以 避免 全 表 扫 摘 。 同 样 可 以 参考 下 动 丰 分 掏 。 


Reduce 


Reduce 过 程 是 MapReduce 处 理 过 程 的 一 部 分 ， 在 这 个 过 程 里 来 自 
map 上 阶段 的 键 - 值 对 会 被 进行 处 理 。MapReduce 的 一 个 重大 的 特性 就 是 
来 自 所 有 map task 产 生 的 键 - 值 对 ， 具 有 相同 键 的 值 会 被 分 发 到 同一 个 
reduce task 中 ， 因 此 值 的 集合 可 以 根据 实际 情况 进行 “化 帘 ”。 例 如 ， 一 
组 整数 可 以 进行 相 加 或 者 求 平 均 计 算 ， 而 一 组 字符 串 可 以 进行 去 重 处 


理 、 等 等。 

关系 模型 

关系 模型 是 数据 库 管 理 系统 的 最 常见 的 模型 ， 其 是 基于 数据 组 织 
和 数据 操作 的 逻辑 模型 。 数 据 结构 的 声明 以 及 如 何 操作 数据 都 是 由 用 
户 定 义 的 ， 最 常见 就 是 使 用 结 灼 化 何 询 语言 (SQL) 。 而 相应 的 具体 
实现 会 将 这 些 声明 转换 成 存储 、 获 取 和 操作 数据 等 处 理 过 程 。 

S3 


S3 上 开 纪 切 克 络 犬 务 (AWS) 的 分 布 式 文件 系统 。 在 运行 
MapReduce 任 务 时 可 以 和 HDFS 结 合 使 用 或 者 替代 HDFS 进 行使 用 。 


SerDe 


序列 化 器 / 反 序 列 化 器 或 简写 为 SarDe， 用 于 将 记录 的 字 解 析 成 列 
或 字段 ， 也 就 是 反 序列 化 过 程 。 它 也 用 来 创建 这 些 记 录 字 广 ( 也 就 是 序 
列 化 过 程 )。 相 反 ， 输 入 格式 (InputFomat) 用 于 将 一 个 输入 流转 换 为 
记录 而 输出 格式 (OutputFormat) 用 来 将 记录 写 到 一 个 输出 流 。 在 创 
建 Hive 表 时 可 以 指定 SerDe。 默 认 的 SerDe 支 持 在 第 3.3 玉 “文本 文件 数 
据 编 码 ” 中 所 介绍 的 字段 分 隔 符 ， 讨 以 及 各 种 优化 如 简易 解析 。 


结构 化 查询 语言 (SQL ) 
结构 化 查询 语言 (SQL) 是 一 种 实现 了 关系 模型 查询 和 操纵 数据 
的 语言 。 缩 写 为 SQL。 对 于 SQL 虽然 有 一 个 经 历 了 很 多 次 修改 的 ANSIT 
标准 ， 但 是 所 有 的 SQL 方言 都 可 以 广泛 地 添加 使 用 目 定义 扩展 和 改 
从 oO 


Task 

在 MapReduce 上 下 文中 ，task 是 在 单个 集群 节点 上 工作 的 最 小 单 
元 ， 其 作为 整个 job 的 一 个 处 理 单元 。 默 认 情 况 下 ， 每 个 task 都 会 局 动 
单独 的 一 个 JVM 进 程 。 每 个 map 和 reduce 调 用 都 有 其 目 身 的 task 。 
Thrift 

Thrift 是 Facebook 发 明 的 RPC 系 统 ， 其 被 集成 到 了 Hive 中 。 远 程 进 


程 可 以 通过 Thrift 发 送 Hive 语 法 到 Hive 中 。 

用 户 自 定义 聚合 画 数 〈UDAE) 

用 户 自 定义 聚合 函数 (UDAF) 是 指 输入 为 多 行 (或 多 行 的 多 个 
字段 ) 而 产生 唯一 个 “聚合 的 ”结果 数据 的 用 户 自 定义 函数 ， 例 如 求 输 
入 数据 的 行 数 ， 计 算 一 组 值 的 和 或 平均 值 ， 等 等 。 这 个 术语 简称 
UDAF。 请 参考 第 13 章 “用 户 目 定义 函数 "和 人 第 13.9 节 “用 户 目 定义 聚合 

用 户 自 定 义 函 数 (UDE) 

用 户 自 定义 函数 (UDF) 是 指 Hive 用 户 用 于 扩展 其 处 理 操 作 所 实 

现 的 函数 。 有 时 这 个 术语 也 包含 Hive 内 置 的 函数 ， 其 也 通常 表示 那些 
条 输入 行 (或 一 行 数据 中 某 个 列 ) 并 产生 一 条 输出 〈 例 如 ， 并 不 会 


改变 输出 记录 的 行 数 ) 的 函数 。 关 于 UDF 的 更 多 信息 ， 请 参考 第 13.9 
节 “ 用 户 自 定义 聚合 函数 "和 第 13.10 节 “用 户 自 定义 表 生 成 函数 ”。 


用 户 自 定义 表 生成 画 数 (UDTF) 


用 户 自 定 义 表 生成 男 数 (UDTF) 是 指 可 以 将 每 条 记录 的 一 个 字 
段 的 值 转换 生成 多 行 记录 的 历 户 租 定义 函数 。 例 子 如 explode 函 数 ， 这 
个 函数 可 以 将 一 个 数组 字段 的 值 转换 成 多 行 ， 而 且 对 于 Hive v0.8.0 和 
更 高 版 本 ， 可 以 将 map 类 型 的 字段 转换 成 键 和 值 的 多 行 数据 。 关 于 
UDTF 的 详细 信息 ， 请 参考 第 13 草 “用 户 目 定义 函数 "和 第 13.9 节 “用 户 
目 定义 率 合 璇 数 ”。 


书 末 说 明 


《Hive 编 程 指 南 》 书 封面 上 的 生物 是 一 只 黄 边 胡 蜂 ( 胡 蜂 属 
的 )  ， 还 有 它 的 蜂巢 。 黄 边 胡 蜂 是 南美 的 唯一 的 一 种 胡 蜂 ， 其 是 在 欧 
洲 移民 时 市 到 美洲 的 。 这 种 胡 蜂 可 以 在 整个 欧洲 以 及 亚洲 大 部 分 地 区 
i ER 0 
适应 。 


胡 蜂 症 一 种 社会 性 昆虫 ， 和 蜜蜂 、 蚂 蚁 是 一 样 的 。 胡 蜂 的 蜂 桌 里 
有 一 个 蜂 后 ， 以 及 少量 的 雄性 胡 蜂 ， 而 大 部 分 都 是 内 性 的 工蜂 。 雄 蜂 
的 使 命 就 是 和 蜂 后 进行 苔 殖 ， 其 后 不 久 它们 就 会 死去 。 而 雌性 工蜂 的 
作用 束 是 建造 蜂巢 ， 搬 运 食物 ， 以 及 照顾 蜂 后 的 卵 。 


明 蜂 的 巢 和 本 书 是 一 致 的 ， 因 为 蜂巢 是 由 木 浆 形 成 的 多 层 六 角形 
格子 构成 的 。 最 终 形成 的 结 采 束 是 一 个 附着 在 短 杆 上 的 条 型 巢 。 在 寒 
冷 地 区 ， 冬 天 的 时 候 胡 蜂 会 放弃 蜂巢 而 转移 到 空 的 树干 里 甚至 是 人 类 
的 房屋 里 ， 蜂 后 和 蜂 卵 会 一 直 竺 到 天 气 变 上 暖 为 上 上。 蜂 卵 及 化 出 新 的 间 
蜂 然后 形成 新 的 殖民 地 ， 而 蜂巢 会 进行 再 次 构造 。 本 书 的 封面 图 片 来 
目 于 Johnson 的 《博物 学 》。 


欢迎 来 到 异步 社区 ! 
异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗下 IT 专 业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运 营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 开 专 业 优 质 出 版 资源 和 
编辑 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 上 自 出 版 结合 、 纸 质 书 与 电 
子 书 结合 、 传 统 印刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 提 供 最 新 技术 
资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 


站 呈 步 六 区 


近 贡 活动 


异步 社区 成 立 一 周年 大 型 赌 书 活动 开局 ! 
异步 社区 的 来 历 异步 社区 是 人 民 闻 电 出 版 社 旗下 
IT 专 , 业 图 书 齐 谨 社 区 ， 于 2015 年 8 月 上 线 运 
营 ， 界 步 社区 依托 于 人 民 闻 电 出 版 社 20 宗 年 的 IT 
专业 
加 菊 汉 缉 志 人 狂 2016 

阅读 准 荐 


周年 庆 满 减 促销 | 满 100 元 减 20 元 、 满 150 元 威 35 元 、 满 200 元 减 50 元 + 更 全 


一 iWeb 峰 会 北京 站 即将 开启 , 为 HTML5 乱 

E 

每 一 次 派 仁 高 呼 后 射 行 业 的 影响 ， 每 一 天 无 数 人 

营区 业 业 的 勤 调 ，2016 挫 起 ! 未 吧 ,8 月 27 日 

HTML5 妖 会 北京 站 ,我 在 这 里 , 等 你 末 , 为 

HTMLS 圭 怠 ! ,- 

国 逆反 邯 志 仑 2016-07-29 
移 读 60 基 


试 指南 ( 第 5 版 ) ( 第 1 (R+Python 
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每 周 六 价 电 子 书 + 更 全 
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EE 四 树 花 派 python 编程 入 门 与 实战 ( 第 2 
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Python 游戏 闹 程 快速 上 。 机 器 学 习 项 目 开发 实战 。 入 莫 派 Python 编 程 入 门 。 像 计算 机 科学 家 一 样 思 [ 汞 ] Richard Blum 抒 鲁 准 , Christine 


Bresnahan 布 竺 世 纳 罕 (作者 ) 陈 谋 了 明 
马 立 新 ( 译 者 ) 


与 实战 ( 第 2 版 考 Python ( 第 2 版 


社区 里 都 有 什么 ? 
购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 红 杨 销 图 蔬 "社区 现 已 上 线 图 书 1000 余 种， 电池 
400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


男 外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 
束 可 以 免费 下 载 。 


与 作 译 者 互动 

很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ; 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 
趣 的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 同 您 关注 的 作者 提出 采 
访 题目 。 
灵活 优惠 的 购书 


您 可 以 方便 地 下 香 购 头 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 
民 邮 电 出 版 社 书库 发 信 ， 电 子 书 提供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 
间 买 到 心仪 的 新 书 。 


用 户 帐户 中 的 积分 可 以 用 于 购书 优惠。100 积 分 =1 元 ， 购 买 图 书 
时 ,在 ”IEEa 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


购买 本 电子 书 的 读者 专 享 异 步 社 区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 
时 和 输入 “57AWG”， 然 后 点 击 “ 使 用 优惠 码 >”， 即 可 享 受 和 电子 书 8 折 优 总 ( 林 优 旺 关 只 可 使 用 一 


1 次 ) 。 
纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 
购买 ， 多 种 阅读 选择 。 


软 技能 : 代码 之 外 的 生存 指南 
[ 美 ] 约 翰 Z. 森 梅 芯 ( John Z. Sonmez ) (作者 ) 王 小 刚 ( 译 者 ) 。” 杨 海 玲 ( 素 任 编辑 ) 
名 | 6 9. OK 


刀子 ft 了 了 "lok ol 


这 是 一 本 真正 从 “人 ” (而 非 技术 也 非 管理 ) 的 角度 关注 软件 开发 人 员 甩 身 发 展 的 书 。 书 中 论述 的 
内 容 茎 涉及 生活 习惯 ， 又 包括 态 维 方式 ， 翁 显 技术 中 “人 ”的 因素 ,全面 讲 解 软 件 行 业 从 业 人 员 所 
需 知 焉 和 的 所 有 “ 软 技能 ”， 

本 书 暴 集 于 软件 开发 人 员 生 活 的 方方面面 , 从 揭秘 画 试 的 污 程 到 精 耕 绍 作出 一 份 杀手 级 简历 ， 从 创 
建 大 委 欢 迎 的 屡 客 到 打 和 址 你 的 个 人 品牌 ， 从 提高 号 己 工 作 效 李 到 与 如 何 与 “拖延 首 ” 做 斗争 ， 到 至 
包括 如 何 投资 不 动产 ， 如 何 关注 舍 己 的 健康 , 

本 书 共 分 为 职业 简 、 自 我 营销 简 、 学 习 简 、 生 产 力 简 、 理 财 简 、 健 身 简 、 精 神往 等 七 简 ， 概 括 了 软 


8 纸 质 版 ¥59:00 半 46.02(7 
电子 版 半 35.00 
电子 版 + 纸 质 版 ” 关 59.00 


社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提 区 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勤 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 
社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 斌 


身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 和 目 出 版 的 
乐趣 ， 轻 松 实现 出 版 的 梦想 。 


如 有 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 
特色 服务 。 


会 议 活 动 早 知道 

您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
加 入 异步 

扫描 任意 二 维 码 都 能 找到 我 们 


异步 社区 


微 信服 务 号 


QQ 群 : 368449889 
社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 


官方 微 博 : @ 人 邮 异 步 社区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 
投稿 & 咨 询 : contact@epubit.com.cn 


